
PART 01
-
SWE-bench Verified(软件工程基准验证版):Opus 4.5 领跑所有前沿模型;
-
SWE-bench 多语言版:8 种语言里,7 种准确率登顶;
-
SWE-bench Aider 多语言版、Vending-Bench、BrowseComp-Plus:通通稳居当前最优水平。
PART 02
-
选工具的眼光更准,再也不瞎选;
-
处理复杂 JSON 模式时,结构错误少了一大截;
-
调用工具时反复回头改的情况大幅减少;
-
还支持 “工具搜索”,不用一上来就加载所有工具,按需动态选就行。
-
20 万令牌的上下文窗口;
-
交错式草稿本(边想边记);
-
自动上下文压缩。
PART 03
-
中等算力投入:在 SWE-bench Verified 上的表现和 Sonnet 4.5 持平,但输出令牌少用了 76%;
-
高等算力投入:比 Sonnet 4.5 的分数高出 4.3 个点,输出令牌还能少用 48%。
-
大模型开始把内部算力控制做成一级 API 功能,让开发者说了算;
-
“性能换成本” 不再是固定死的买卖,每一次调用都能自己选侧重。
PART 04
-
先把基础经济舱升级(这是允许的); -
升级后再改出行日期(非基础经济舱支持改期)。
PART 05
-
企业级工作流;
-
面向客户的智能体;
-
涉及敏感数据的任务;
-
容易遭遇恶意输入的场景。
PART 06
-
Claude Code:新增 “规划模式”,执行前会先生成 plan.md 规划文档;桌面端支持本地和远程会话并行运行;不再只是聊天式代码生成器,更像结构化的 IDE 助手。
-
Claude Apps:长对话再也不会触发上下文限制,模型会自动总结早期消息;Chrome 版 Claude 全面开放;Excel 版 Claude 覆盖 Max/Team/Enterprise 套餐。
-
使用限制:取消了 Opus 专属的使用上限;Max 和 Team Premium 用户的令牌额度提升到和之前 Sonnet 持平。
PART 07
-
中间推理链条更短;
-
冗余的工具调用更少;
-
执行前的规划更周密;
-
上下文压缩在不丢逻辑的前提下,缩小了历史记录体积。
PART 08
-
Claude API(模型标识:claude-opus-4-5-20251101);
-
Claude 应用端;
-
AWS Bedrock;
-
Google Vertex AI;
-
Microsoft Foundry。
-
输入令牌:每百万 5 美元;
-
输出令牌:每百万 25 美元。
PART 09
-
推理更稳定;
-
规划更周密;
-
多步骤执行更靠谱;
-
令牌使用更高效;
-
安全保障更扎实;
-
工具处理和智能体管理更顺手。


