由 Anthropic 推出的 Claude 4 家族包含两个主要模型:
-
Claude Opus 4:面向复杂任务的旗舰大模型,强调推理、创意生成和安全性。 -
Claude Sonnet 4:面向日常使用的高效模型,性能和性价比较均衡。
? Claude Opus 4:极致性能,突破极限
✨ 卓越成绩
-
SWE-bench(软件工程基准):72.5%(领先全球) -
Terminal-bench(命令行任务基准):43.2% -
可连续工作数小时、完成上千步复杂任务,远超 Sonnet 模型性能。
? 行业反馈
-
Cursor:称其为“代码领域的SOTA”,擅长理解复杂代码库。 -
Replit:在多文件复杂修改中表现卓越,精度显著提高。 -
Block:首次在代码编辑与调试阶段提升代码质量的模型(其智能体代号为 Goose)。 -
Rakuten:模型在重构开源项目中,连续运行 7 小时,始终保持高性能。 -
Cognition:能够解决以往模型无法处理的关键任务。
⚙️ Claude Sonnet 4:高效实用,全面进化
✨ 成绩表现
-
SWE-bench 得分高达 72.7%,在同类中遥遥领先。 -
在执行力、响应精度、指令可控性方面大幅提升。
? 行业反馈
-
GitHub:将 Sonnet 4 引入 GitHub Copilot 新一代代码代理模型。 -
Manus:在复杂指令、逻辑推理、美学输出等方面表现更优。 -
iGent:自动构建多功能应用的能力大幅提升,导航错误率从 20% 降至接近 0%。 -
Sourcegraph:深度理解问题、编写更优雅代码,推进开发流程跃迁。 -
Augment Code:执行更精准、更细致的代码修改,是其首选模型。


|
|
---|---|
Claude Opus 4 |
|
Claude Sonnet 4 |
|
社区关注点
1. 闭源与定价透明度争议
-
用户希望 开源 Claude 3.5 Sonnet 的权重,以促进本地模型发展。 -
对 token 计费不透明 表达不满,要求更清晰的计费说明和可追踪的 token 消耗。
2. “自动举报”功能引发争议
-
据称 Claude 4 Opus 可能具备某些「触发即上报」的功能:当用户行为违反道德或法律底线时,模型可自动向媒体或监管机构通报,甚至锁定关键系统权限。 -
社区对该功能提出严重质疑,担心其被滥用用于 AI监控 或 政府审查。 -
有人批评这是“植入AI中的恶意软件行为”,违反用户隐私和安全原则。
? 模型新能力
1. 扩展思维 + 工具使用(Beta)
-
Opus 4 与 Sonnet 4 均可调用外部工具(如 Web 搜索)进行推理。 -
模型可在“推理”与“工具使用”之间切换,实现更具深度的回答。
2. 并行使用工具 & 改进记忆能力
-
模型可并行调用多个工具,提升效率。 -
当开发者提供本地文件访问权限时,Claude 会自动提取并保存关键信息,构建长期记忆,优化上下文连续性。
? Anthropic API 新增四项强力能力
-
代码执行工具(code execution tool) -
MCP连接器(支持 Agent 框架集成) -
文件API(文件读写处理) -
Prompt缓存(最长缓存 1 小时)
使得开发者能构建出更复杂、持续运行的 AI Agent。
⚡ 模型模式与访问计划
Claude Opus 4 与 Sonnet 4 采用混合模式:
-
即时响应模式:用于快速应答 -
深度思考模式(Extended Thinking):适用于复杂推理
订阅计划中支持如下内容:
-
Pro / Max / Team / Enterprise 均可使用 Opus 4 和 Sonnet 4 全功能。 -
免费用户也可使用 Sonnet 4(但无 Extended Thinking)。
部署渠道:
-
Anthropic API -
Amazon Bedrock -
Google Cloud Vertex AI
? Claude 4 模型改进亮点
✅ 1. 减少“投机取巧”行为(shortcuts & loopholes)
在智能体任务中,模型有时会走捷径完成任务,而不是按预期步骤操作。现在:
-
Claude Opus 4 与 Sonnet 4 比 Sonnet 3.7 少 65% 使用漏洞行为; -
在易受投机影响的智能体任务中,行为更稳健、更可靠。
? 2. 记忆系统全面升级(Opus 4 特有)
Claude Opus 4 是 首个在“长期记忆”上表现优异的模型,当开发者提供 本地文件访问权限 时,Claude 可:
-
自动生成并维护“记忆文件(memory files)”; -
持久保存关键上下文与任务数据,提升连贯性与智能体能力。
? 实例展示
在《宝可梦红版》(Pokémon Red)游戏中,Claude Opus 4 可:
-
创建一份“导航指南”(Navigation Guide); -
并持续更新文件内容以保持任务上下文。
? 上述行为已通过可视化“记忆笔记”展示,是 Claude 自动记录的真实文件内容。
? 3. 引入“思维摘要”机制(Thinking Summaries)
-
为了提升用户体验,Claude 4 引入小型模型,对冗长推理过程进行压缩; -
仅约 5% 的推理过程需要摘要,绝大多数可完整呈现; -
对于需要完整推理链(Chain-of-Thought)进行提示工程的高级用户,可申请开发者模式(Developer Mode)。
Claude 4 的这些改进,显著推动其向真正可控、可靠的 AI Agent 框架迈进。
?? Claude Code 全面上线
Claude Code 已正式开放,现可广泛嵌入开发者的工作流:
-
支持终端操作 -
无缝集成主流 IDE -
提供可扩展的 Claude Code SDK,便于构建自定义智能体与应用
? IDE 插件支持(Beta)
新增对两大主流 IDE 的原生支持:
✅ VS Code 插件
✅ JetBrains 插件(如 IntelliJ、PyCharm)
插件集成特性:
-
Claude 的代码修改建议直接出现在编辑器文件内联位置; -
可轻松进行代码审阅与版本跟踪,无需切换环境; -
安装方式:在 IDE 的终端中运行 Claude Code
命令即可。
? Claude Code SDK 发布(开发者专用)
-
提供可扩展的 SDK,让开发者可基于 Claude Code 核心代理自行构建智能体与代码工具; -
同时发布官方示例项目,展示 SDK 的能力边界。
? GitHub 应用整合(Beta)
Claude Code 现可部署为 GitHub 应用,协助代码协作与审查:
功能示例
-
回应 PR 评论(例如解释代码、自动修复问题) -
自动修复 CI 错误 -
根据提示修改代码
安装方式
在 Claude Code 中运行:/install-github-app
? Claude 4 Prompt Engineering 指南
Claude 4 系列在指令理解与执行精度上较以往大幅提升,但同时也需要更明确的提示结构以发挥其全部潜力。
? 基本原则
一、务必明确具体
Claude 4 更倾向于按照提示“恰如其分”地执行任务。因此:
-
如果你想让模型展现 “超出预期” 的创造力或深入推理,请在提示中明确提出; -
模糊或过于简略的指令,可能只会得到基础输出。
❌ 效果较差:
创建一个数据分析仪表板
Claude 会倾向于仅输出基础框架或概念说明。
✅ 效果更佳:
请创建一个数据分析仪表板。请尽可能包括相关功能与交互项,涵盖数据过滤、图表切换、自定义指标等。希望你不仅实现基础功能,而是构建一个功能齐全、可投入使用的完整版本。
此类提示将鼓励 Claude 执行更深入的生成任务,展现高阶的理解与执行力。
二、添加上下文以增强效果
Claude 4 拥有更强的指令理解能力,如果你说明“为什么”需要某种行为,Claude 会更准确地把握你的目标并优化其输出。
✅ 示例对比:格式化偏好
❌ 效果较差:
NEVER use ellipses.
这类硬性命令会被机械执行,但不一定延展到相关上下文。
✅ 效果更佳:
你的回答将由文本转语音(TTS)引擎朗读。TTS 不会正确处理省略号,因此请不要使用省略号。
Claude 会从解释中泛化出更合理的行为逻辑,不仅避免省略号,也可能优化断句方式。
三、保持示例与细节的一致性
Claude 4 对提示中的示例非常敏感,会尝试模仿示例行为。
? 实践建议:
|
|
---|---|
|
|
|
|
|
|
? 特殊情景的指导说明
一、控制响应格式的有效方法
Claude 4 在格式引导(format steerability)方面表现良好,但要发挥其最大效力,请参考以下建议:
1. 用“应做”代替“不要做”
Claude 对 积极指令(你希望它如何做)响应更明确。
❌ 较弱提示:
不要使用 markdown
✅ 更强提示:
请以流畅自然的段落方式撰写,不使用任何 markdown 标记。
2. 使用 XML 标签约束结构
Claude 能识别并遵循提示中的格式标签,例如:
请将所有段落包裹在 <smoothly_flowing_prose_paragraphs> 标签中。
这不仅控制输出结构,还帮助你在后处理时更容易提取内容。
3. 匹配提示风格与目标输出风格
Claude 倾向于模仿你提供的提示格式。
? 技巧示例:
-
想要纯文本?你的提示也请不要包含 markdown、项目符号、标题等格式; -
想要表格格式?你的提示可以用表格风格陈述需求。
这将显著提高 Claude 输出与你预期之间的一致性。
二、利用 Claude 4 的「思考能力」与「交错思维能力」
Claude 4 可在执行工具调用之后,插入思考阶段(如评估、反思、规划),尤其适合:
-
多步推理任务 -
使用外部工具(如搜索、代码执行、API调用)后的响应判断 -
智能体式任务(agentic workflows)
✅ 提示范式推荐:引导思考 + 规划行动
收到工具返回的结果后,请认真反思其质量,并在继续之前确定最优下一步。利用你的思考能力,基于最新信息进行计划与迭代,然后执行最优的下一步操作。
三、并行工具调用(Parallel Tool Calling)
Claude 4 原生已具备高成功率的并行工具执行能力,但若想确保接近 100% 并行使用成功率,推荐加入如下提示:
✅ 提示模板(用于智能体开发):
为确保最高效率,当你需要执行多个彼此独立的操作时,请**同时调用所有相关工具**,而非顺序执行。
四、减少智能体生成代码时的临时文件创建
Claude 在进行智能体式编码时,可能会创建多个临时文件(如测试脚本、辅助函数)作为草稿区(scratchpad),这种行为有时确实能提升输出质量。
如果你更希望在任务完成后保持项目整洁,可加入以下提示:
✅ 提示模板:
如果你在任务中创建了任何临时脚本、文件或辅助模块,请在任务结束时将其清除或删除,以保持文件整洁。
五、提升前端代码生成质量
Claude 4 在 Web 界面、前端设计等领域已有很强表现,但你可以进一步鼓励其创造力与细节打磨,显著提升效果。
✅ 提示模板组合:
|
|
---|---|
|
|
|
|
|
|
|
|
|
|
? Claude 4 迁移注意事项
Claude 4 的行为更精确、可控、响应逻辑性更强,但这也意味着你需要更清晰地告诉它“你希望它做什么”。
一、明确行为期望
Claude 4 不再像 3.7 一样在模糊指令下自由发挥。你应:
-
直白描述你想看到的输出 -
避免过于简略或泛化的指令
二、使用“加强型修饰语”引导 Claude 提升质量
Claude 4 响应“修饰词”特别敏感。你可以加入如:
-
“尽可能全面” -
“超越基础功能” -
“展示最好的能力” -
“细节丰富” -
“视觉吸引力强”
这些词句能显著提升 Claude 输出的质量与复杂度。
❌ 示例(没有加强型修饰语):
生成一个分析仪表板。
✅ 示例(更多加强型修饰语):
请生成一个数据分析仪表板。请包含尽可能多的相关功能与交互组件,例如图表切换、筛选器、导出选项等。不要仅提供基础模板,而是构建一个功能完备的版本。
三、显式请求特定功能
若你希望输出中包含:
-
✨ 动画效果 -
? 交互行为 -
? 响应式布局 -
? 动态数据绑定
你必须明确指出,否则 Claude 4 不会默认生成这类复杂行为。
✅ 示例:
请为该分析仪表板添加 hover 动效、图表动画,以及用户点击后的下钻交互。