大年初二炸场!Claude Sonnet 4.6 突发上线:拥有 Opus 水平,编程能力史诗级进化

昨天(大年初一),阿里 Qwen 团队除夕夜刚给大家送上了一份“硬核年货” —— Qwen 3.5 开源版,让不少技术人除夕夜都没睡好。

万万没想到,大洋彼岸的 Anthropic 也是“上赶着祝贺”,在今天大年初二(2月18日),突然扔出了一枚重磅炸弹——Claude Sonnet 4.6 正式发布

看来硅谷的 AI 巨头们也深谙中国春节的“内卷”之道,生怕大家假期过得太清闲。

官方本次发布描述为 “目前最强的 Sonnet 模型”,在编程、电脑操作(Computer Use)、长上下文推理以及 Agent 规划能力上都迎来了全面升级。

大年初二炸场!Claude Sonnet 4.6 突发上线:拥有 Opus 水平,编程能力史诗级进化

以下是 Claude Sonnet 4.6 更新的几个核心亮点:

  • • 全方位能力提升:在编程、逻辑推理、文档处理等关键领域,性能显著超越前代 Sonnet 4.5。
  • • 100万 Token 上下文:Beta 版支持高达 1M 的上下文窗口,足以吞下整个代码库或几十篇研究论文。
  • • 定价不变:尽管能力大幅提升,API 价格依然维持在每百万 Token 输入 15 的水平。
  • • 全面开放:Free 和 Pro 用户即日起默认使用 Sonnet 4.6。

对于开发者来说,最关心的莫过于 Coding 能力。根据 Anthropic 的测试数据,Sonnet 4.6 在 SWE-bench Verified(基于真实 GitHub 问题的基准测试)中得分达到了 79.6%,相比 Sonnet 4.5 (77.2%) 有了明显提升,甚至非常接近 Opus 4.6 (80.8%) 和 GPT-5.2 (80.0%) 的水平。

在实际体验中,这种提升更为直观。Anthropic 表示,在早期测试中,开发者有 70% 的时间更倾向于使用 Sonnet 4.6 而非 Sonnet 4.5

为什么?因为它治好了 AI 的“懒病”:

  • • 更少偷懒:不再随意省略代码,完整性更高。
  • • 指令遵循更强:更精准地理解复杂需求。
  • • 上下文理解更深:在修改代码前会更认真地阅读上下文,减少了因理解偏差导致的错误。

Cursor 的联合创始人 Michael Truell 也给出了极高的评价:

“Claude Sonnet 4.6 在各方面都比 Sonnet 4.5 有了显著进步,尤其是在处理长周期任务和更困难的问题上。”

去年 10 月,Anthropic 首次推出了能够像人一样操作电脑的 Computer Use 功能。仅仅几个月过去,Sonnet 4.6 在这项能力上又迈出了一大步。

在 OSWorld(AI 电脑操作的标准基准测试)中,Sonnet 4.6 的得分飙升至 72.5%,而上一代 Sonnet 4.5 仅为 61.4%。

大年初二炸场!Claude Sonnet 4.6 突发上线:拥有 Opus 水平,编程能力史诗级进化

这意味着什么?现在的 Claude 在浏览网页、点击鼠标、输入文字时,表现得更像一个熟练的人类用户。它可以处理更复杂的电子表格、填写多步骤的网页表单,甚至在多个浏览器标签页之间自如切换,完成跨应用的复杂任务。

除了编程和电脑操作,Sonnet 4.6 在各项通用基准测试中也表现亮眼。在 GPQA Diamond(研究生水平推理)测试中,得分达到 89.9%,不仅超越了 Sonnet 4.5,甚至在某些维度上可以与更昂贵的 Opus 模型掰手腕。

大年初二炸场!Claude Sonnet 4.6 突发上线:拥有 Opus 水平,编程能力史诗级进化

特别值得一提的是它的长上下文推理能力。Sonnet 4.6 不仅能“装”下 100 万 Token 的内容,更重要的是它能有效地利用这些信息进行长周期的规划和决策。

在一个模拟经营游戏(Vending-Bench Arena)的测试中,Sonnet 4.6 展现出了惊人的策略性:它会在前十个月投入巨资扩大产能,然后在最后阶段果断转向追求利润。这种“放长线钓大鱼”的决策能力,以往往往是人类或顶级大模型才具备的特质。

除了 Cursor,多家科技公司的技术负责人都对 Sonnet 4.6 赞不绝口:

  • • GitHub 产品副总裁 Joe Binder:“Sonnet 4.6 在复杂代码修复方面表现出色,特别是当需要在大型代码库中搜索时。”
  • • Replit 总裁 Michele Catasta:“它的性价比简直不可思议(extraordinary)。它能处理我们最复杂的 Agent 工作流。”
  • • Bolt CEO Eric Simons:“它是我们在复杂应用构建和 Bug 修复上的首选,以前这些工作通常需要更昂贵的模型。”

在这个春节,Anthropic 用 Claude Sonnet 4.6 给全球开发者送上了一份大礼。对于大多数用户而言,Sonnet 4.6 凭借其接近 Opus 的能力和维持不变的价格,无疑将成为目前性价比最高的首选模型

如果你还在使用旧版本,不妨趁着假期试一试这个新伙伴。API 用户现在就可以调用 claude-sonnet-4-6 来体验了。

 

RAG技术前沿技术新闻资讯

HiRAG问答流程深入分析

2026-4-7 13:43:15

RAG技术前沿技术新闻资讯

2025 年 RAG 最佳 Reranker 模型

2026-4-7 14:45:12

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索