Andy
读完需要
分钟
速读仅需 2 分钟
在 AI 领域,Agent 早已不是新鲜概念。OpenAI 内部早在 GPT-3 时期就构建了可自主调试代码的 Agent 雏形。但是我们发现 Agent 并没有像我们像的那样,出现在各个场景各个领域都大放异彩、百花齐放局面? 一个残酷的现实是:Agent 系统正陷入"实验室玩具"与"工业级工具"的死亡峡谷。根本原因是,Agent 的可靠性不足,上限较低。所以一直还摆不上台面,仅在有限的场景迭代和落地。
实现一个 Agent 不难,小白通过学习在一两天内也可以开发一个 Agent,但要做一个可用的 Agent,远没有这么容易。判断一个 Agent 是否可用,主要取决于具体场景的错误容忍度和受众的介入程度。以 AI 编程为例,开发者对 Agent 生成代码的预期是:需求明确的、规模不大的需求,代码生成还不错,会有问题,但可以通过反复调整,最终达到相对可接受的结果”。所以,AI coding 这个场景火了,大量不懂代码的开发者诞生了。 当下大家能看到的生产级别的 Agent,基本上都有这两个特征:复杂度与规模较低、容错水平高。
如果 Agent 想要在更广泛场景、更复杂、大规模的场景中得到应用,核心要解决的可靠性问题,而影响可靠性的核心因素是就是模型的幻觉和记忆管理的挑战。
1
幻觉困境
大语言模型作为概率生成引擎,其输出具有天然的不确定性。这种概率机制存在的先天缺陷与系统脆弱性。
不可消除的幻觉风险 → "考场里的粗心学生"
幻觉每个大模型都不可避免的问题,这种特性在单次调用中表现为约 10%的错误率,而在需要多步推理的 Agent 场景中,错误率呈指数级放大。例如:一个包含 4 次模型调用的流程(假设每次正确率 90%),整体成功率将骤降至 60%-70%。
大模型如同一个知识渊博但容易马虎的考生:单次答题正确率 90%(10 题错 1 题),但当需要连续完成 4 道关联题时(如数学证明题),只要错 1 步就会全盘皆输。
任务复杂度的死亡曲线 → "多米诺骨牌效应
Agent 系统的可靠性随任务复杂度呈现非线性衰减。编程类 Agent 在处理 100 行代码需求时可达 80%可用性,但当需求扩展至 500 行时,可用性可能跌破 30%。处理 100 行代码就像摆放 10 块骨牌,Agent 能较轻松完成;但扩展到 500 行代码时,相当于要精准摆放 200 块骨牌,只要 1 块位置偏移就会引发连锁倒塌。这种断崖式下跌源于几个核心原因:
多步决策路径的交叉污染
工具调用的蝴蝶效应(单个 API 错误引发连锁故障)
长期记忆依赖的指数级衰减
2
记忆管理的三重悖论
2.1
窗口困境→"健忘的图书馆管理员"
容量天花板: 即便突破百万 token 上下文窗口(如 Meta Llama Scout),硬件算力成本呈指数级上升。管理员(大模型)只能随身携带 1 本笔记(上下文窗口),虽然换成了 1000 页的超厚笔记本(百万 token),但查找信息的速度慢到无法工作
注意力稀释: Transformer 架构在处理超长文本时,有效注意力覆盖不足 20%(ICLR 2023 数据)。当管理员需要同时处理 10 本书时,注意力像手电筒光束越来越散,最终连书名都看不清。
时序失序: 早期关键信息被后续内容覆盖,导致记忆时序错乱。管理员不断在新页记录信息,旧的重要笔记被压在底下,就像外卖小哥总忘记客户说"不要香菜"。
典型案例,客服 Agent 在连续处理 20 轮对话后,遗忘用户初始需求的核心参数,引发服务失效。
2.2
召回系统的精度陷阱→"三套安检系统的机场"
现有 RAG 方案面临「召回精度-计算成本」的残酷权衡:
基础向量检索:召回率 70%时精度不足 40%。像用金属探测器找危险品,能发现 70%的刀具(召回率),但会把钥匙扣也报警(精度低)
知识图谱增强:精度提升至 60%,但构建成本增加 300%。就像安检,升级为 X 光机+人工复检,准确率提升到 60%,但需要三倍安检人员(成本激增)。
Agentic RAG:引入动态路由机制,却带来 15%的额外延迟。就像引入智能传送带自动分拣,却又造成行李拥堵(延迟增加)。
2.3
记忆演化的认知鸿沟→"不会总结经验的实习生"
人类记忆的「动态压缩-解压缩」机制(如将连续事件抽象为经验范式)与大模型的「静态快照存储」存在本质差异。人类像资深律师:处理 10 个离婚案后,能提炼出《财产分割黄金法则》;而 Agent 就像实习律师,每次都要重新翻阅全部案卷,还会在相似案件中犯重复错误。这导致经验沉淀失效,Agent 无法将 10 次相似操作抽象为可复用的工作模式。 认知路径固化,导致重复错误无法通过记忆迭代自我修正。
3
有办法解决这些问题吗?
为了解决 Agent 面临的挑战,提升 Agent 的性能,业界提出了各种解决方案,总结起来有 3 大类:
引入 workflow,使用固化的工作流程来提升确定性,但同时牺牲掉灵活性。
在 ReAct 框架的基础上做工程侧的极致优化。
引入多 Agent,效仿人类团队协作,突破单 Agent 的极限,发挥群集智慧。
具体到技术层面,科学家们也在尝试、探索各种演进的路径:
稀疏注意力:DeepSeek 的 NSA 架构将长文本处理效率提升 4 倍。就像在信息高速公路上设置动态收费口,对重要车辆(关键信息)开放快速通道,普通车辆(次要信息)分流绕行,让车流(数据处理)效率提升 4 倍。
记忆分片:Google 的 BigBird 实现关键记忆片段的持久化锚定
混合存储:Meta 的 MemWalker 结合向量库与关系型数据库,构建立体记忆
容错编排:Airbnb 采用「原子操作+补偿事务」机制,将多步任务可靠性从 58%提升至 89%。这种机制如同话剧《哈姆雷特》:主演(主流程)突然失声时,替补演员(补偿事务)立即接戏,确保演出(任务)不中断。这种设计让系统可靠性从社区话剧级(58%)提升到百老汇级(89%)。
人机协同:Notion AI 引入「记忆检查点」功能,允许用户手动标注关键记忆节点
渐进验证:GitHub Copilot 通过实时单元测试反馈,构建代码生成的动态纠错环
神经符号系统:微软 Project Brainwave 将符号推理注入大模型,在芯片设计场景中将逻辑错误率从 22%降至 7%
世界模型构建:Tesla Bot 通过物理仿真环境训练,建立三维空间记忆表征
记忆蒸馏技术:Anthropic 研发的记忆提炼算法,可将百万 token 对话压缩为结构化知识图谱。这个技术,就像把 10 杯咖啡(百万 token 对话)浓缩成 1 杯 espresso(知识图谱),保留精华风味(关键知识),倒掉水分(冗余信息)。
4
结尾
这些解决方案、技术探索虽然实践起来都还是各有各的优势和局限,各有各的难。
但是,今天你看到的不管是 AI 还是 Agent 的能力,已然高于昨天。
道路是曲折的,方向是确定的。
就像凯恩斯曾在汽车取代马车的年代预言:"我们终将学会游泳,在技术的海洋里。"