Gemini 3.1 Pro 深夜发布！Google 太吓人了

Gemini 3.1 Pro 深夜发布！Google 太吓人了

Google 于昨日（2月19日）正式发布了其最新一代大语言模型 Gemini 3.1 Pro。作为 Gemini 3 系列的升级版本，此次更新主要聚焦于核心推理能力的增强，特别是在处理复杂逻辑、编程任务以及多模态理解方面表现出显著进步。

值得注意的是，尽管性能指标有较大幅度提升，Google 宣布 Gemini 3.1 Pro 的定价将维持与前代 Gemini 3 Pro 一致，这使得该模型在当前的 AI 市场中具备了较高的性价比。

在此次更新中，最引人注目的数据来自 ARC-AGI-2 基准测试。该测试旨在评估人工智能系统处理全新、未知逻辑模式的能力，被认为是衡量通用人工智能（AGI）进展的重要指标之一。

根据 Google 官方及第三方验证的数据显示：

这一数据的变化表明，Gemini 3.1 Pro 在面对未经过训练的逻辑难题时，其泛化推理能力有了质的飞跃，而不仅仅是依赖记忆训练数据。

除了通用推理，Gemini 3.1 Pro 在专业领域的知识储备和应用能力上也进行了强化。

在 GPQA Diamond 测试中，Gemini 3.1 Pro 取得了 94.3% 的成绩。该测试涵盖了物理、化学、生物等领域的专家级问题，高分意味着模型在处理严谨科学问题时具有更高的准确性和可靠性。

针对软件开发场景，Gemini 3.1 Pro 在 SWE-Bench Verified（真实软件工程问题解决）测试中达到了 80.6% 的解决率。这一成绩与目前编程能力极强的 Claude Opus 4.6 (80.8%) 基本持平，处于行业第一梯队。

此外，在 LiveCodeBench Pro（实时编程竞赛）中，其 Elo 分数从前代的 2439 提升至 2887，显示出在算法竞赛类题目上的解题速度和准确率都有明显提升。

Google 在技术报告中展示了 Gemini 3.1 Pro 在实际应用中的几项新能力，强调了模型从“对话”向“执行”的转变。

SVG 动画代码生成：
模型能够根据自然语言描述，直接生成可运行的 SVG 动画代码。与传统的视频生成模型不同，代码生成的动画具有矢量特性，文件体积小且可无限缩放，更适合网页开发和 UI 设计场景。

复杂系统可视化：
在演示中，模型成功解析了国际空间站（ISS）的公开遥测数据 API，并编写了一个可视化的仪表盘前端，实现了数据的实时展示。这展示了模型在理解技术文档、编写代码以及处理数据流方面的综合能力。

多模态理解：
在 MMMU-Pro 基准测试中，Gemini 3.1 Pro 获得了 80.5% 的分数，表明其在理解图表、工程图纸以及视频内容方面具有较强的能力。

对于企业用户和开发者而言，Gemini 3.1 Pro 的定价策略是一个重要的考量因素。Google 此次选择了“加量不加价”的策略：

这一价格与 Gemini 3 Pro 保持一致。相比之下，性能接近的竞品如 Claude Opus 4.6 的价格通常更高（输入约 25）。

此外，API 功能也进行了多项优化：

总体而言，Gemini 3.1 Pro 是一次务实且强力的版本更新。它没有追求花哨的新概念，而是扎实地提升了模型最核心的推理和执行能力。

对于需要处理复杂逻辑、科学计算或大规模代码任务的用户来说，Gemini 3.1 Pro 提供了一个性能强大且成本可控的新选择。

目前，该模型已通过 Google AI Studio 和 Vertex AI 向开发者开放预览，普通用户也可通过 Gemini Advanced 订阅服务进行体验。

开发者也可通过 Gemini API、Gemini CLI、Antigravity 等体验使用。

{{userData.name}}已认证