Google 悄悄升级了 Deep Think，ARC-AGI-2 直接干到 84.6%

刚刚，Google DeepMind 升级了 Gemini 3 的专用推理模式 Deep Think，跑分直接屠榜了。

要知道，ARC-AGI-2 是目前公认测试 AI 推理能力的前沿基准，之前没有模型能在这上面拿到特别好看的分数。

而升级后的 Deep Think 拿下了 84.6%，对比一下：Claude Opus 4.6 是 68.8%，GPT-5.2 是 52.9%，就连自家的 Gemini 3 Pro Preview 也才 31.1%。

提升巨大。

不止推理

Deep Think 的野心显然不止于推理。

在 Humanity's Last Exam 这个号称「人类最后的考试」的基准上，Deep Think 拿到了 48.4%，这个测试覆盖了数学、科学和工程领域最难的问题。Claude Opus 4.6 得了 40.0%，GPT-5.2 是 34.5%。

编程方面也很猛：

Codeforces 上 Deep Think 达到了 Elo 3455，而 Gemini 3 Pro Preview 是 2512，Claude Opus 4.6 是 2352。

另外在多模态理解和推理的 MMMU-Pro 基准上，Deep Think 也以 81.5% 领跑，不过这里各家差距没那么大：Gemini 3 Pro Preview 81.0%，GPT-5.2 79.5%，Claude Opus 4.6 73.9%。

除了跑分，Deep Think 还在 2025 年物理和化学奥林匹克竞赛的笔试部分拿到了金牌水平的成绩。

Google DeepMind 这次特别强调，升级后的 Deep Think 不再只是解题机器，而是要解决真实世界的科学和工程问题。

他们展示了 Duke 大学 Wang Lab 的案例：研究人员用 Deep Think 来设计新型半导体材料，优化复杂晶体的生长过程，这些晶体是高温半导体的候选材料。

还有机械工程领域的研究者用它来迭代物理原型，让硬件迭代达到了软件迭代的速度，这在辅助设备等领域意味着更快的改进周期。

升级后的 Deep Think 模式现在已经开始在 Gemini App 中向 Google AI Ultra 订阅用户推送。

对于科研人员和开发者，Google 开放了 Vertex AI 早期访问计划，可以通过 API 使用。