Agent创业者的天塌了，OpenAI发布ChatGPT Agent

昨晚，OpenAI突然发了个直播预告，表示即将发布ChatGPT Agent。这时候所有agent创业者看到估计都不得不捏一把冷汗的，注定一夜无眠，要连夜讨论对策了。

从发布会的阵容看，你也能发现OpenAI还挺重视的，毕竟Sam Altman到场了。

简单来说，ChatGPT Agent是在一个虚拟电脑环境中运行，整合此前的 Operator（可点网页、填表、交互）、Deep Research（深度调研生成报告）及ChatGPT自身对话能力的产品，支持网页浏览、代码运行、表格处理、API调用，甚至帮你写PPT、分析数据、安排行程。

上面这些介绍听着是不是有点耳熟？

是的，我们已经看过很多国内创业者的同类agent产品了，从Manus、Genspark，再到Skywork、MiniMax Agent。华人agent创业团队也已经产品从最开始的「通用」概念，卷到了对PPT、Excel等office套件垂直领域的优化，我前几天介绍过的MiniMax Agent还发展出了一次性生成带后端的网站的开发能力。

从这些视角看，ChatGPT Agent对我们来说，显得没那么模型，没那么新颖，甚至我看了些案例后也觉得表现还没那么出色。

但，这是在基础模型领域做得最出色的公司之一啊，他们也可以为了工具对模型进行专项优化。所以，抱着发展的眼光看，这次发布传递出来的真正信息是：OpenAI注意到通用Agent这个赛道了，小团队可能就别玩了，你不想和OpenAI行驶在完全相同的跑道上的。

关于产品功能

目前ChatGPT Agent已经向订阅了200美元/月会员的~~大冤种~~财神爷开放，Plus和Teams会员预计几天之后会获得这个功能的使用权限。我暂时还没用上，先给大家看看官方发布的能力和一些网友案例。

ChatGPT Agent能干以下几个方面的事：

1）自动完成多步骤任务：可以完成浏览网页、填表、下单，甚至交互“支付”等流程，系统会提前提示你确认，比如要求agent「为我规划生日餐」，它就会通过查日历了解你的生日日期、选餐厅、登录OpenTable抢座、甚至给你订蛋糕。

2）一站式分析生成文件：Agent会自动抓竞品数据→分析→输出Excel模型+PPT套件，全流程自动化，时间可能在 10–30 分钟完成。

3）支持第三方集成：支持 Gmail、Google Drive、GitHub，加上浏览器、终端、API等工具，能力模块挺丰富的。

4）任务可中断可监督：你可以随时中断、补充意见，甚至在关键动作前手动确认，全程用户把控。

5）持续任务／定期任务支持：比如“每周一生成周度指标报告”，可以让它周期执行，这也算是现在Agent产品的标配功能了。

关于模型能力和表现

和Grok一样，OpenAI为这个Agent训了新模型，新模型基于强化学习训练，专门针对 Agent 工具操作进行调优，Deep Research 用的是 o3 系列模型，这套系统在复杂任务处理上显然下了狠功夫。

在一些Benchmark上，带了上面提到的各种工具的使用后，ChatGPT Agent在很多benchmark上相比Gemini 2.5、Claude 4，以及OpenAI自家的老模型都有不小进步。

01｜HLE：如果 AI 上了“人类最后的考试”，能不能不挂科？

在评估语言模型的终极大考 Humanity’s Last Exam 中，ChatGPT Agent 用全部工具（包括终端、浏览器、计算环境）出战，直接拉出了 41.6% 的 Pass@1 成绩 —— 比上一代 Deep Research 的 26.6% 提升了整整 15 个百分点，也远远甩开基础的 o3 模型。

不过相比这个分数，我觉得更有趣的是在X上看到了Grok对OpenAI的阴阳怪气

02｜DSBench：数据分析师的职业生涯危险了

LLM虽然擅长文字处理，但毕竟只是在预测下一个token，所以在数据建模、分析、数据科学类任务依然得靠人。但在 DSBench 这个高度贴近真实工作流的数据科学基准中，有了各种辅助工具后，ChatGPT Agent远远把人类甩在了身后：

在数据分析任务中，Agent 的准确率达到了 89.9%
在数据建模任务中，Agent 得分为 85.5%

初级的数据分析师如果缺乏洞察能力，只知道折腾数据的话，可能真的需要考虑转行了。

03｜SpreadsheetBench：Excel 的战争， ChatGPT赢了微软

在职场里最“反人类”的任务是什么？很可能就是改 Excel 表格。OpenAI 给 Agent 安排了这样一个挑战：让它在近千道真实电子表格编辑题中操刀，不仅要能找数据、算公式、改格式，还得模仿人类的书写逻辑。

结果很惊人：

Excel 中 Copilot 的平均准确率是 20.0%
ChatGPT Agent 版本打到了 45.5%
支持 .xlsx 编辑功能后，分数跃升至 71.3%

04｜投行建模任务：它也能干分析师的活儿

在内部测试中，OpenAI 安排 ChatGPT Agent干了这么些班味满满的任务：给一家 Fortune 500 公司做三表建模、处理私有化收购模型、检查引用是否规范……这些是投行初级分析师每天凌晨两点还在做的苦活。

最终结果：

它在任务完成时间上接近甚至优于人类
在逻辑完整性与公式准确率方面，显著超过了 o3 与 Deep Research

05｜WebArena & BrowseComp：找信息这件事，它比Deep Research又进化了

我之前一直很喜欢各种Deep Research产品，不管是ChatGPT的、Gemini的还是最近秘塔新出的深度研究，这在我获取和整合信息的工作流中都太有用太重要了，而且我觉得AI在这方面早就干得比我好，还比我专业了。

然后，现在ChatGPT Agent又把这个能力往前推了一步。

WebArena 测试中，它在复杂网页交互场景中达到了65.4% 的完成率，比 o3 模型高了几个百分点，但比人类还差点

在 BrowseComp 这个找隐蔽信息的测试里，它打出了新的 SOTA：68.9% —— 比 Deep Research 高出 17.4 个百分点

跑分看着都挺强的，但实际怎么样呢？我觉得还得再看看。

比如，下面这个X上全球阅读量最大的每日 AI 时事通讯创造者Rowan Cheun发的这个生成退休方案PPT的案例，我多少觉得有点好笑

写在最后

之前一直很奇怪Agent这个显而易见的赛道，为什么好像都是国内的企业在卷，国外的主要模型公司为什么不干这事，是嫌这个领域太窄太小了，还是模型能力不到位。

现在看来都不是，现在ChatGPT Agent来了，Gemini和Claude对应的产品估计也不远了。

留给初创公司的，可能是少一些通用，多一些纵深的垂类Agent赛道了。

看在我凌晨6点肝完这篇文章的份上，求个关注、点赞不过分吧～

{{userData.name}}已认证