
昨晚,OpenAI突然发了个直播预告,表示即将发布ChatGPT Agent。这时候所有agent创业者看到估计都不得不捏一把冷汗的,注定一夜无眠,要连夜讨论对策了。

从发布会的阵容看,你也能发现OpenAI还挺重视的,毕竟Sam Altman到场了。
简单来说,ChatGPT Agent是在一个虚拟电脑环境中运行,整合此前的 Operator(可点网页、填表、交互)、Deep Research(深度调研生成报告)及ChatGPT自身对话能力的产品,支持网页浏览、代码运行、表格处理、API调用,甚至帮你写PPT、分析数据、安排行程。

上面这些介绍听着是不是有点耳熟?
是的,我们已经看过很多国内创业者的同类agent产品了,从Manus、Genspark,再到Skywork、MiniMax Agent。华人agent创业团队也已经产品从最开始的「通用」概念,卷到了对PPT、Excel等office套件垂直领域的优化,我前几天介绍过的MiniMax Agent还发展出了一次性生成带后端的网站的开发能力。

从这些视角看,ChatGPT Agent对我们来说,显得没那么模型,没那么新颖,甚至我看了些案例后也觉得表现还没那么出色。
但,这是在基础模型领域做得最出色的公司之一啊,他们也可以为了工具对模型进行专项优化。所以,抱着发展的眼光看,这次发布传递出来的真正信息是:OpenAI注意到通用Agent这个赛道了,小团队可能就别玩了,你不想和OpenAI行驶在完全相同的跑道上的。
关于产品功能
目前ChatGPT Agent已经向订阅了200美元/月会员的大冤种财神爷开放,Plus和Teams会员预计几天之后会获得这个功能的使用权限。我暂时还没用上,先给大家看看官方发布的能力和一些网友案例。
ChatGPT Agent能干以下几个方面的事:
1)自动完成多步骤任务:可以完成浏览网页、填表、下单,甚至交互“支付”等流程,系统会提前提示你确认,比如要求agent「为我规划生日餐」,它就会通过查日历了解你的生日日期、选餐厅、登录OpenTable抢座、甚至给你订蛋糕。

2)一站式分析生成文件:Agent会自动抓竞品数据→分析→输出Excel模型+PPT套件,全流程自动化,时间可能在 10–30 分钟完成。

3)支持第三方集成:支持 Gmail、Google Drive、GitHub,加上浏览器、终端、API等工具,能力模块挺丰富的。

4)任务可中断可监督:你可以随时中断、补充意见,甚至在关键动作前手动确认,全程用户把控。
5)持续任务/定期任务支持:比如“每周一生成周度指标报告”,可以让它周期执行,这也算是现在Agent产品的标配功能了。
关于模型能力和表现
和Grok一样,OpenAI为这个Agent训了新模型,新模型基于强化学习训练,专门针对 Agent 工具操作进行调优,Deep Research 用的是 o3 系列模型,这套系统在复杂任务处理上显然下了狠功夫。
在一些Benchmark上,带了上面提到的各种工具的使用后,ChatGPT Agent在很多benchmark上相比Gemini 2.5、Claude 4,以及OpenAI自家的老模型都有不小进步。
01|HLE:如果 AI 上了“人类最后的考试”,能不能不挂科?
在评估语言模型的终极大考 Humanity’s Last Exam 中,ChatGPT Agent 用全部工具(包括终端、浏览器、计算环境)出战,直接拉出了 41.6% 的 Pass@1 成绩 —— 比上一代 Deep Research 的 26.6% 提升了整整 15 个百分点,也远远甩开基础的 o3 模型。

不过相比这个分数,我觉得更有趣的是在X上看到了Grok对OpenAI的阴阳怪气

02|DSBench:数据分析师的职业生涯危险了
LLM虽然擅长文字处理,但毕竟只是在预测下一个token,所以在数据建模、分析、数据科学类任务依然得靠人。但在 DSBench 这个高度贴近真实工作流的数据科学基准中,有了各种辅助工具后,ChatGPT Agent远远把人类甩在了身后:
-
在数据分析任务中,Agent 的准确率达到了 89.9%
-
在数据建模任务中,Agent 得分为 85.5%
初级的数据分析师如果缺乏洞察能力,只知道折腾数据的话,可能真的需要考虑转行了。

03|SpreadsheetBench:Excel 的战争, ChatGPT赢了微软
在职场里最“反人类”的任务是什么?很可能就是改 Excel 表格。OpenAI 给 Agent 安排了这样一个挑战:让它在近千道真实电子表格编辑题中操刀,不仅要能找数据、算公式、改格式,还得模仿人类的书写逻辑。
结果很惊人:
-
Excel 中 Copilot 的平均准确率是 20.0%
-
ChatGPT Agent 版本打到了 45.5%
-
支持 .xlsx 编辑功能后,分数跃升至 71.3%

04|投行建模任务:它也能干分析师的活儿
在内部测试中,OpenAI 安排 ChatGPT Agent干了这么些班味满满的任务:给一家 Fortune 500 公司做三表建模、处理私有化收购模型、检查引用是否规范……这些是投行初级分析师每天凌晨两点还在做的苦活。
最终结果:
-
它在任务完成时间上接近甚至优于人类
-
在逻辑完整性与公式准确率方面,显著超过了 o3 与 Deep Research

05|WebArena & BrowseComp:找信息这件事,它比Deep Research又进化了
我之前一直很喜欢各种Deep Research产品,不管是ChatGPT的、Gemini的还是最近秘塔新出的深度研究,这在我获取和整合信息的工作流中都太有用太重要了,而且我觉得AI在这方面早就干得比我好,还比我专业了。
然后,现在ChatGPT Agent又把这个能力往前推了一步。
WebArena 测试中,它在复杂网页交互场景中达到了65.4% 的完成率,比 o3 模型高了几个百分点,但比人类还差点

在 BrowseComp 这个找隐蔽信息的测试里,它打出了新的 SOTA:68.9% —— 比 Deep Research 高出 17.4 个百分点

跑分看着都挺强的,但实际怎么样呢?我觉得还得再看看。
写在最后
之前一直很奇怪Agent这个显而易见的赛道,为什么好像都是国内的企业在卷,国外的主要模型公司为什么不干这事,是嫌这个领域太窄太小了,还是模型能力不到位。
现在看来都不是,现在ChatGPT Agent来了,Gemini和Claude对应的产品估计也不远了。
留给初创公司的,可能是少一些通用,多一些纵深的垂类Agent赛道了。