我们离理想的AutoGPT还有多远?


@TsingYoga 大佬帖子转载,原文地址如下

https://x.com/TsingYoga/status/1802261329115533738

AutoGPT1[1]已经163k star了,AutoGPT的开发者雕花了一年多,但它仍然停留在demo阶段,算不上产品(即使面向开发者)。这和传统开源软件的发展轨迹相差甚远,核心原因是Agent的上限由底座模型决定

GPT4从去年到现在发布了多个版本,实测起来对支持AutoGPT的能力并没有明显变化(甚至还有版本迭代后效果变差的情况)。可以明显感受到,OpenAI并没有为Agent任务专门优化,所谓GPT4“推理能力”的提升是面向评测起来比较简单的场景(例如代码、数学题等),而Agent任务所需的“推理能力”和MATH / SWE-Bench任务的推理能力其实完全不是一个概念。因此,很大概率纯套壳类Agent工具day1的效果就是上限

我们离理想的AutoGPT还有多远?Agent能力细数起来其实很多,例如(1)选择适合的工具并填写正确的参数;(2)复杂场景下的推理能力;(3)反思上一个失败步骤的原因从而找到更优的解路径;(4)长序列memory问题等等——本质上其实都是幻觉问题:即底座模型没有见过该场景下的MDP决策序列(数据)。数据的缺失才是原罪

目前,无论是预训练阶段还是微调阶段的Agent数据都是几乎没有被收集/重视的。互联网上的数据本质上都是“静态快照”,或者说是“结果数据”,如何产生这些数据的用户行为过程(“过程数据”)是没有被记录下来的。后者没有统一的记录格式,仅零星地存在于做埋点测试的后端,从收集到被利用都还有很大距离。过程数据主动记录的成本也极高,参考学生团队2[2]和大厂团队的标注效率3[3]

在缺乏规模化数据的前提下想解决幻觉问题,常见的解决方案就是(1)RAG:即参考相似任务的解路径来辅助当前任务决策 4[4];或者(2)RLHF:基于先前的经验来迭代优化当前任务的路径。后者没有成熟的工作(5[5]可参考),原因是通用Agent任务场景的reward model(evaluation)是该方法的卡点。去年在Tree-of-thought和Q*的消息出来后分别有一系列工作探索了用Monte-Carlo来bootstrap成功路径的工作(太多了,偷懒只列一篇6[6]),都有涨点但没有做到特别实用的程度,核心原因也是evaluation的(1)准确率不够和(2)无法泛化或scalable7[7]

前沿技术新闻资讯

大模型时代数据库技术创新

2025-1-21 8:13:50

前沿技术新闻资讯

今天先和大家一起从零实现 AI 代理,只用到 Python 和 OpenAI

2025-1-21 9:58:58

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索