Gemini 3.1 Pro 深夜发布!Google 太吓人了
Google 于昨日(2月19日)正式发布了其最新一代大语言模型 Gemini 3.1 Pro。作为 Gemini 3 系列的升级版本,此次更新主要聚焦于核心推理能力的增强,特别是在处理复杂逻辑、编程任务以及多模态理解方面表现出显著进步。
值得注意的是,尽管性能指标有较大幅度提升,Google 宣布 Gemini 3.1 Pro 的定价将维持与前代 Gemini 3 Pro 一致,这使得该模型在当前的 AI 市场中具备了较高的性价比。

核心升级:推理能力的突破
在此次更新中,最引人注目的数据来自 ARC-AGI-2 基准测试。该测试旨在评估人工智能系统处理全新、未知逻辑模式的能力,被认为是衡量通用人工智能(AGI)进展的重要指标之一。
根据 Google 官方及第三方验证的数据显示:
-
• Gemini 3.1 Pro 得分为 77.1%。 -
• 相比之下,前代 Gemini 3 Pro 的得分为 31.1%。 -
• 目前市场上的主流竞品,如 Claude Opus 4.6 得分为 68.8%,GPT-5.2 为 52.9%。
这一数据的变化表明,Gemini 3.1 Pro 在面对未经过训练的逻辑难题时,其泛化推理能力有了质的飞跃,而不仅仅是依赖记忆训练数据。

专业领域表现:科学与代码
除了通用推理,Gemini 3.1 Pro 在专业领域的知识储备和应用能力上也进行了强化。
1. 科学知识
在 GPQA Diamond 测试中,Gemini 3.1 Pro 取得了 94.3% 的成绩。该测试涵盖了物理、化学、生物等领域的专家级问题,高分意味着模型在处理严谨科学问题时具有更高的准确性和可靠性。
2. 编程与工程
针对软件开发场景,Gemini 3.1 Pro 在 SWE-Bench Verified(真实软件工程问题解决)测试中达到了 80.6% 的解决率。这一成绩与目前编程能力极强的 Claude Opus 4.6 (80.8%) 基本持平,处于行业第一梯队。
此外,在 LiveCodeBench Pro(实时编程竞赛)中,其 Elo 分数从前代的 2439 提升至 2887,显示出在算法竞赛类题目上的解题速度和准确率都有明显提升。
实际应用场景:从文本到执行
Google 在技术报告中展示了 Gemini 3.1 Pro 在实际应用中的几项新能力,强调了模型从“对话”向“执行”的转变。
SVG 动画代码生成:
模型能够根据自然语言描述,直接生成可运行的 SVG 动画代码。与传统的视频生成模型不同,代码生成的动画具有矢量特性,文件体积小且可无限缩放,更适合网页开发和 UI 设计场景。
复杂系统可视化:
在演示中,模型成功解析了国际空间站(ISS)的公开遥测数据 API,并编写了一个可视化的仪表盘前端,实现了数据的实时展示。这展示了模型在理解技术文档、编写代码以及处理数据流方面的综合能力。
多模态理解:
在 MMMU-Pro 基准测试中,Gemini 3.1 Pro 获得了 80.5% 的分数,表明其在理解图表、工程图纸以及视频内容方面具有较强的能力。
定价与开发者生态
对于企业用户和开发者而言,Gemini 3.1 Pro 的定价策略是一个重要的考量因素。Google 此次选择了“加量不加价”的策略:
-
• 输入价格:$2.00 / 100万 tokens(上下文长度 < 200k) -
• 输出价格:$12.00 / 100万 tokens(上下文长度 < 200k)
这一价格与 Gemini 3 Pro 保持一致。相比之下,性能接近的竞品如 Claude Opus 4.6 的价格通常更高(输入约 25)。
此外,API 功能也进行了多项优化:
-
1. 文件上传限制提升:支持最大 100MB 的文件直接上传分析。 -
2. 视频理解:支持直接输入 YouTube 视频链接进行内容分析。 -
3. Thinking Level 参数:开发者可以通过新增的参数控制模型的推理深度,从而在响应速度、成本和推理质量之间找到平衡。
如何使用
总体而言,Gemini 3.1 Pro 是一次务实且强力的版本更新。它没有追求花哨的新概念,而是扎实地提升了模型最核心的推理和执行能力。
对于需要处理复杂逻辑、科学计算或大规模代码任务的用户来说,Gemini 3.1 Pro 提供了一个性能强大且成本可控的新选择。
目前,该模型已通过 Google AI Studio 和 Vertex AI 向开发者开放预览,普通用户也可通过 Gemini Advanced 订阅服务进行体验。
开发者也可通过 Gemini API、Gemini CLI、Antigravity 等体验使用。

