导读 OpenAI憋了一年大招,GPT-5.4直接对标Claude Computer Use,Gemini Project Mariner还在追赶。三家都在喊"Agent native",但真用起来哪家最靠谱?我们整理了官方数据 + 开发者实测反馈,给你一个清晰的选型指南。
出品社区|DataFun
三强背景:先发者守擂,后发者翻盘
|
厂商 |
先发/后发 |
核心策略 |
当前处境 |
|
Anthropic Claude |
2024年10月首发Computer Use |
稳健派,强调可靠性 |
技术领先但生态受限,API贵 |
|
OpenAI GPT-5.4 |
2025年3月后发 |
碾压派,百万token+低价 |
后发优势明显,开发者迁移中 |
|
Google Gemini |
Project Mariner 2024年底发布 |
多模态派,原生多模态 |
起了大早赶了晚集,声量不够 |
Claude是"第一个吃螃蟹"的。2024年10月,Anthropic率先推出Computer Use功能,让AI能直接操控电脑——看屏幕、点鼠标、敲键盘。当时业界震惊,但一年多过去,这个功能始终停留在"实验室可用"阶段,API定价高、生态封闭,开发者用着心疼。
OpenAI选择了后发制人。2026年3月5日,GPT-5.4发布,直接内置native computer use能力,百万token上下文,API定价比Claude便宜2-3倍。官方数据毫不客气:OSWorld-Verified基准测试75%得分,超越人类(72.4%)和Claude Opus 4.6(72.7%)。
Google最尴尬。Project Mariner早在2024年底就亮相,但到现在仍是内测状态,捆绑在$249.99/月的Google AI Ultra订阅里。Gemini 3.1 Pro Preview虽然在通用评测中拿了97分(高于GPT-5.4的96分),但Agentic Index仅27.8,TerminalBench Hard仅24.2%,在Agent场景明显落后。
一句话总结:Claude起了大早,OpenAI赶上了集,Google还在路上。
硬核数据:实测对比谁更能打
1. 桌面Agent能力(OSWorld-Verified)
这是目前最权威的桌面Agent评测,测试AI在真实操作系统中完成任务的能力。
|
模型 |
得分 |
vs 人类 |
|
GPT-5.4 |
75% |
+2.6% |
|
Claude Opus 4.6 |
72.7% |
+0.3% |
|
人类基准 |
72.4% |
– |
解读:GPT-5.4首次在桌面操控上超越人类平均水平,也比Claude强2.3个百分点。别小看这2.3%,在复杂工作流中这就是"能完成"和"卡住"的区别。
2. 编码能力(SWE-Bench)
|
模型 |
SWE-Bench Verified |
适用场景 |
|
Claude Opus 4.6 |
80.8% |
复杂软件工程、代码重构 |
|
GPT-5.4 |
57.7% |
自动化脚本、快速原型 |
解读:Claude在编码上依然领先,特别是大规模代码库理解和复杂重构任务。但GPT-5.4在生产环境编码任务中取得了56%的胜率,说明在实际工作流中差距正在缩小。
3. 定价对比(关键决策因素)
|
模型 |
Input/1M tokens |
Output/1M tokens |
上下文长度 |
|
Gemini 3.1 Pro |
$2.00 |
$12.00 |
100万 |
|
GPT-5.4 |
$2.50 |
$15.00 |
105万 |
|
Claude Opus 4.6 |
$5.00 |
$25.00 |
100万(beta) |
解读:Claude比GPT-5.4贵2-3倍,Gemini最便宜但可用性受限。对于需要高频调用Agent能力的应用,Claude的定价可能是致命伤。
4. 其他关键指标
|
指标 |
GPT-5.4 |
对比 |
|
BrowseComp(多步骤网页研究) |
82.7%(Pro版89.3%) |
超越此前所有模型 |
|
GDPval(44个专业领域vs专家) |
83%胜率 |
GPT-5.2仅70.9% |
|
TerminalBench 2.0 |
75.1% |
通用模型中顶尖 |
|
错误率降低 |
33% |
vs GPT-5.2 |
开发者选型指南:你的场景该用谁?
直接给结论:
|
你的场景 |
推荐选择 |
原因 |
|
浏览器自动化 (爬虫、表单填写、数据抓取) |
GPT-5.4 |
上下文长(105万token), 复杂流程不丢状态,API便宜 |
|
跨应用桌面操作 (本地软件+网页联动) |
Claude |
稳定性高,出错率低, 适合对可靠性要求高的场景 |
|
多模态任务 (图像/视频理解+操作) |
Gemini |
原生多模态能力强, 视觉理解最准 |
|
预算敏感/快速原型 |
GPT-5.4 |
性价比碾压, 适合创业公司 |
|
金融/医疗等高风险场景 |
Claude |
Anthropic更强调安全和对齐, 容错率低 |
|
复杂软件工程 (大规模代码库) |
Claude |
SWE-Bench 80.8%, 代码理解能力更强 |
落地建议:
1. 创业公司/个人开发者:首选GPT-5.4,成本可控,功能全面,生态完善。
2. 企业级应用/高风险场景:考虑Claude,虽然贵,但在可靠性和安全性上更值得信赖。
3. Google生态深度用户:可以等等Project Mariner正式版,但目前不建议押注。
Agent时代的启示
对开发者
Agent不是"让AI替人做事",而是"让AI帮人省掉重复劳动"。GPT-5.4的75% OSWorld得分意味着什么?意味着在大量桌面操作任务上,AI已经比人更靠谱。如果你还在手动填表、导数据、整理文档,是时候考虑用Agent接管了。
对产品
三类产品会被Agent快速颠覆:
-
纯表单类产品(AI直接帮你填完)
-
简单查询类产品(AI直接跨站搜完)
-
规则固定的SOP工具(AI自动执行流程)
对行业
OpenAI和Claude的竞争会加速Agent标准形成。GPT-5.4的低价策略可能引发新一轮价格战,最终受益的是开发者。Google如果不能再2026年上半年把Project Mariner正式推出,可能会彻底掉队。
结语
三强各有胜负,但赢家是"能用AI把事做成"的开发者。
Claude守住了技术领先的高地,但OpenAI用规模和定价优势正在翻盘。Gemini还有牌可打,但时间不多了。


