2025 年：如何构建有效的智能体

本篇文章来自Anthropic，我用大模型给翻译了一下，以下是全文。

过去一年里，我们与数十个团队合作，跨行业构建大型语言模型（LLM）智能体。通常，最成功的实施案例并不是使用复杂的框架或专门的库。相反，它们是用简单、可组合的模式来构建的。

在这篇文章中，我们分享了从与客户合作及自行构建智能体中学到的经验，并为开发者提供了构建高效智能体的实用建议。

什么是智能体？

“Agent”可以通过多种方式定义。一些客户将智能体定义为完全自主的系统，这些系统在较长时间内独立运行，使用各种工具完成复杂任务。另一些客户则用这个词来描述更规范的实现，这些实现遵循预定义的工作流程。在 Anthropic，我们将所有这些变体归类为智能体系统，但在工作流程和智能体之间划定了重要的架构区别：

工作流程是通过预定义的代码路径来编排LLMs和工具的系统。

另一方面，智能体（Agents）是这样的系统：大型语言模型（LLMs）在其中动态地指导自己的流程和工具使用，保持对如何完成任务的控制。

下面，我们将详细探讨这两种类型的智能体系统。在附录 1（“实践中的智能体”）中，我们描述了客户在使用这类系统时发现特别有价值的两个领域。

智能体可分成两种：一种是工作流智能体，一种是自主智能体

何时（以及何时不）使用智能体

使用LLMs构建应用程序时，我们建议尽可能寻找最简单的解决方案，仅在需要时增加复杂性。这可能意味着根本不需要构建智能体系统。代理系统通常会以更高的延迟和成本来换取更好的任务性能，你应该考虑何时这种权衡是合理的。

当需要更多的复杂性时，工作流程为明确定义的任务提供了可预测性和一致性，而当需要大规模的灵活性和模型驱动的决策时，智能体通常是更好的选择。然而，对于许多应用来说，通过检索和上下文示例优化单个大型语言模型（LLM）调用通常已经足够了。

何时以及如何使用框架

有许多框架使得智能体系统更易于实现，包括：

LangChain的LangGraph ;

Amazon Bedrock 的 AI 智能体框架

Rivet，一个拖放式 GUI LLM工作流构建器；

以及Vellum，另一个用于构建和测试复杂工作流程的 GUI 工具。

这些框架通过简化标准的低级任务（如调用大型语言模型（LLM）、定义和解析工具以及将调用串联在一起）来使入门变得容易。然而，它们通常会创建额外的抽象层，这可能会使底层提示和响应变得难以调试。它们还可能让人产生增加复杂性的诱惑，而实际上一个更简单的设置就足够了。

我们建议开发者首先直接使用大型语言模型（LLM）API：许多模式可以用几行代码实现。如果你确实使用了框架，请确保你理解底层代码。对底层机制的错误假设是客户错误的常见来源。

查看我们的实用指南以获取一些示例实现。（https://github.com/anthropics/anthropic-cookbook/tree/main/patterns/agents）

构建模块、工作流程和智能体

在本节中，我们将探讨在生产环境中常见的智能体系统模式。我们将从基础构建块——增强型大型语言模型（LLM）开始，逐步增加复杂性，从简单的组合工作流到自主代理。

构建模块：增强的LLM

智能体系统的基本构建模块是一个LLM，通过检索、工具和记忆等增强功能进行扩展。我们当前的模型（Claude）能够主动利用这些能力——生成自己的搜索查询、选择合适的工具，并决定保留哪些信息。

增强的LLM

我们建议重点关注实施的两个关键方面：根据您的具体用例定制这些功能，并确保它们为您的LLM提供一个简单、文档齐全的接口。虽然实现这些增强功能的方法有很多，但一种方法是通过我们最近发布的模型上下文协议，该协议允许开发者通过简单的客户端实现与不断增长的第三方工具生态系统集成。

在本文的剩余部分，我们将假设每个LLM调用都能访问这些增强功能。

工作流程：提示链

提示链将任务分解为一系列步骤，其中每个LLM调用处理前一个调用的输出。您可以在任何中间步骤添加程序化检查（见下图中的“gate”），以确保过程仍在正轨上。

提示链工作流程

何时使用此工作流：何时使用此工作流：当任务可以轻松且清晰地分解为固定的子任务时，这种工作流最为理想。主要目标是通过使每个LLM调用成为一个更简单的任务，以牺牲延迟为代价来换取更高的准确性。

提示链有用的示例：生成营销文案，然后将其翻译成另一种语言。撰写文档大纲，检查大纲是否符合特定标准，然后根据大纲编写文档。

代码示例：

工作流程：路由

路由对输入进行分类并将其引导至专门的后续任务。这种工作流程允许关注点分离，并构建更专业的提示。如果没有这种工作流程，针对一种输入的优化可能会损害其他输入的性能。

何时使用此工作流程：路由适用于复杂任务，这些任务具有明显不同的类别，更适合分开处理，并且分类可以通过LLM或更传统的分类模型/算法准确处理。

路由有用的示例：

将不同类型的客户服务查询（一般问题、退款请求、技术支持）引导至不同的下游流程、提示和工具。

将简单/常见问题路由到较小的模型（如 Claude 3.5 Haiku），将困难/不常见的问题路由到更强大的模型（如 Claude 3.5 Sonnet），以优化成本和速度。

工作流程：并行化

LLMs 有时可以同时处理一个任务，并通过编程方式聚合它们的输出。这种工作流程，即并行化，表现为两种关键变体：

分段：将任务分解为并行运行的独立子任务。

投票：多次运行同一任务以获得多样化的输出。

何时使用此工作流程：当划分的子任务可以并行化以加快速度，或需要多个视角或尝试以获得更高置信度的结果时，并行化是有效的。对于具有多重考虑的复杂任务，LLMs通常在每个考虑由单独的LLM调用处理时表现更好，这样可以对每个特定方面进行集中关注。

并行化有用的示例：

分段：

实施防护措施，其中一个模型实例处理用户查询，而另一个模型则筛选其中的不当内容或请求。这种方法通常比让同一个LLM调用同时处理防护措施和核心响应表现更好。

自动化评估以评估LLM性能，其中每个LLM调用评估模型在给定提示下性能的不同方面。

投票：

审查一段代码以查找漏洞，其中多个不同的提示会审查并在发现问题时标记代码。

评估给定内容是否不当，通过多个提示评估不同方面或要求不同的投票阈值以平衡误报和漏报。

工作流程：协调器-工作者

在协调者-工作者工作流中，一个中央LLM动态地分解任务，将它们分配给工作者LLMs，并综合它们的结果。

何时使用此工作流：此工作流非常适合那些无法预测所需子任务的复杂任务（例如，在编码中，需要更改的文件数量以及每个文件中更改的性质可能取决于任务）。尽管它在拓扑结构上相似，但与并行化的关键区别在于其灵活性——子任务并非预先定义，而是由协调器根据具体输入确定。

编排器-工作者模式有用的示例：

每次对多个文件进行复杂更改的编码产品。

搜索涉及从多个来源收集和分析信息以寻找可能相关信息的任务。

工作流程：评估者-优化器

在评估器-优化器工作流程中，一个LLM调用生成响应，而另一个在循环中提供评估和反馈。

何时使用此工作流程：当我们有明确的评估标准，并且迭代改进能带来可衡量的价值时，此工作流程尤为有效。适合的两个标志是，首先，当人类明确表达其反馈时，LLM 的响应可以得到明显改善；其次，LLM 能够提供此类反馈。这类似于人类作家在创作一份精炼文档时可能经历的迭代写作过程。

评估优化器有用的示例：

文学翻译中存在一些细微差别，译者LLM可能最初未能捕捉到，但评估者LLM可以提供有益的批评。

需要多轮搜索和分析以收集全面信息的复杂搜索任务，评估者决定是否需要进行进一步搜索。

Agents 智能体

智能体在生产中逐渐崭露头角，随着关键能力的成熟——理解复杂输入、参与推理和规划、可靠地使用工具以及从错误中恢复。智能体的工作始于人类用户的命令或互动讨论。一旦任务明确，智能体便独立规划和操作，可能会返回给人类以获取更多信息或判断。在执行过程中，智能体在每一步从环境中获取“真实情况”（如工具调用结果或代码执行）以评估其进展至关重要。智能体随后可以在检查点或遇到阻碍时暂停以获取人类反馈。任务通常在完成时终止，但为了保持控制，也常见包含停止条件（如最大迭代次数）。

智能体可以处理复杂的任务，但它们的实现通常很简单。它们通常只是LLMs在循环中根据环境反馈使用工具。因此，清晰而周到地设计工具集及其文档至关重要。我们在附录 2（“提示工程你的工具”）中扩展了工具开发的最佳实践。

何时使用智能体：智能体可用于开放式问题，这些问题难以或无法预测所需的步骤数量，且无法硬编码固定路径。LLM可能会运行多个回合，你必须对其决策能力有一定程度的信任。智能体的自主性使其成为在可信环境中扩展任务的理想选择。

智能体的自主性意味着更高的成本和错误累积的可能性。我们建议在沙盒环境中进行广泛测试，并设置适当的防护措施。

智能体有用的示例：

以下示例来自我们自己的实现：

一个编码智能体，用于解决 SWE-bench 任务，这些任务涉及根据任务描述对多个文件进行编辑；

参考我们的“computer use”实现，其中 Claude 使用计算机完成任务。

编码智能体的高级流程

结合并自定义这些模式

这些构建模块并非一成不变。它们是开发者可以根据不同使用场景塑造和组合的常见模式。与任何LLM功能一样，成功的关键在于衡量性能并迭代实现。重申一遍：只有在明显改善结果时，才应考虑增加复杂性。

总结

在LLM领域的成功并不在于构建最复杂的系统，而在于构建适合您需求的正确系统。从简单的提示开始，通过全面评估进行优化，只有在更简单的解决方案不足时，才添加多步骤的智能体系统。

在实现智能体时，我们尝试遵循三个核心原则：

1、保持智能体设计的简洁性。

2、优先考虑透明度，明确展示智能体的规划步骤。

3、精心设计您的智能体-计算机界面（ACI），通过全面的工具文档和测试。

框架可以帮助您快速入门，但在进入生产阶段时，不要犹豫减少抽象层并使用基本组件进行构建。遵循这些原则，您可以创建不仅功能强大，而且可靠、可维护并赢得用户信任的智能体。

由 Erik Schluntz 和 Barry Zhang 撰写。本作品借鉴了我们在 Anthropic 构建智能体的经验以及客户分享的宝贵见解，对此我们深表感激。

{{userData.name}}已认证

大模型重塑版讯飞输入法来了！能懂每个人的AI输入

思维树：利用大型语言模型进行深思熟虑的解决问题