Google 悄悄升级了 Deep Think,ARC-AGI-2 直接干到 84.6%


刚刚,Google DeepMind 升级了 Gemini 3 的专用推理模式 Deep Think,跑分直接屠榜了。

Google 悄悄升级了 Deep Think,ARC-AGI-2 直接干到 84.6%

要知道,ARC-AGI-2 是目前公认测试 AI 推理能力的前沿基准,之前没有模型能在这上面拿到特别好看的分数。

Google 悄悄升级了 Deep Think,ARC-AGI-2 直接干到 84.6%

而升级后的 Deep Think 拿下了 84.6%,对比一下:Claude Opus 4.6 是 68.8%,GPT-5.2 是 52.9%,就连自家的 Gemini 3 Pro Preview 也才 31.1%。

提升巨大。

不止推理

Deep Think 的野心显然不止于推理。

Google 悄悄升级了 Deep Think,ARC-AGI-2 直接干到 84.6%

在 Humanity's Last Exam 这个号称「人类最后的考试」的基准上,Deep Think 拿到了 48.4%,这个测试覆盖了数学、科学和工程领域最难的问题。Claude Opus 4.6 得了 40.0%,GPT-5.2 是 34.5%。

编程方面也很猛:

Codeforces 上 Deep Think 达到了 Elo 3455,而 Gemini 3 Pro Preview 是 2512,Claude Opus 4.6 是 2352。

Google 悄悄升级了 Deep Think,ARC-AGI-2 直接干到 84.6%

另外在多模态理解和推理的 MMMU-Pro 基准上,Deep Think 也以 81.5% 领跑,不过这里各家差距没那么大:Gemini 3 Pro Preview 81.0%,GPT-5.2 79.5%,Claude Opus 4.6 73.9%。

Google 悄悄升级了 Deep Think,ARC-AGI-2 直接干到 84.6%

除了跑分,Deep Think 还在 2025 年物理和化学奥林匹克竞赛的笔试部分拿到了金牌水平的成绩

要解决科学问题

Google DeepMind 这次特别强调,升级后的 Deep Think 不再只是解题机器,而是要解决真实世界的科学和工程问题

Google 悄悄升级了 Deep Think,ARC-AGI-2 直接干到 84.6%

他们展示了 Duke 大学 Wang Lab 的案例:研究人员用 Deep Think 来设计新型半导体材料,优化复杂晶体的生长过程,这些晶体是高温半导体的候选材料。

Google 悄悄升级了 Deep Think,ARC-AGI-2 直接干到 84.6%
Google 悄悄升级了 Deep Think,ARC-AGI-2 直接干到 84.6%

还有机械工程领域的研究者用它来迭代物理原型,让硬件迭代达到了软件迭代的速度,这在辅助设备等领域意味着更快的改进周期。

如何使用

升级后的 Deep Think 模式现在已经开始在 Gemini App 中向 Google AI Ultra 订阅用户推送。

Google 悄悄升级了 Deep Think,ARC-AGI-2 直接干到 84.6%

对于科研人员和开发者,Google 开放了 Vertex AI 早期访问计划,可以通过 API 使用。

RAG技术前沿技术新闻资讯

基于大模型的智能问答场景解决方案——RAG提升召回率的关键

2026-4-7 16:53:37

RAG技术前沿技术新闻资讯

你的RAG知识库,真的“喂”对数据了吗?拆解dify分段策略,告别无效召回

2026-4-7 18:01:52

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索