大半夜的, OpenAI更新GPT-5.4了。

AI开始的前两年,真的很少看到OpenAI 这么高频率的迭代发布模型。
今年以来,2月份更了5.3 Codex,写代码上真的口碑好到爆炸,这才刚过一个月,又是更新了GPT-5.3 Instant 缓解了已经臭名在外的对话能力,然后又直接把GPT-5.4端上桌了。
先说参数上对我感知最大的提升,上下文窗口提升到1M了。 而且GPT-5.4的价格比Claude 要便宜。

至此,海外三家模型的上下文长度都已经提升到1百万。
算力足够,就是可以很韧性。
Benchmark 跑分
这里列几个我自己比较关注的Benchmark表现,完整的可以去看OpenAI官方的博客。
链接在此: https://openai.com/index/introducing-gpt-5-4/
知识工作方面,

在GDPval上,GPT-5.4 的表现反而比GPT-5.4 Pro 还要好一些,两个基本都超过GPT-5.2 Pro约10%
计算机使用以及视觉方面,
GPT-5.4 是OpenAI首个支持computer-use 能力的通用模型。 它可以更好的通过使用截图来操作电脑。

OSWorld-Verified 上,使用更少的工具产出却获得更高的分数。

视觉理解上,MMMU Pro 再次超越前代的GPT-5.2。 文档OCR理解 OmniDocBench 上, GPT
-5.4 在推理能力没开启的情况下就超越了前代GPT-5.2
代码方面,

一句话就是,GPT-5.4 速度更快,效果更好。
以及,OpenAI 大概率也是觉得之前Codex 很慢,所以专门还设定了一个快速模式。
开启快速模式,用GPT-5.4速度快至1.5倍,并且他们特意强调只是速度更快,质量不会降低。

工具使用方面,
这次GPT-5.4引入了一个新特性,工具搜索。它可以让模型在面对多工具时,工作得更有效率。

他们做了一个实验,在MCP Atlas Benchmark 上,开启两种模式来启用36个MCP服务器:一种是直接在模型上下文中暴露每个MCP功能,二是将所有MCP服务器放置在工具搜索之后。
工具搜索配置将总token使用量减少了47%,同时实现了相同的准确度。
代理工具调用方面,

更少的工具调用回合下,GPT-5.4准确率更高。
实测
看完了Benchmark,我直接在Codex 上简单进行了几个测试。
第一个是经典的魔方测试:

这个效果真不错,是我测到现在感觉最丝滑,而且魔方面旋转的时候没破损。
第二个是创建的3D视角的房间。

这个是两步完成的效果,还不错,基本要求的功能都有了。
其他方面还需要时间再多测测感受一下。
以上,

