

一、Claude 4 简介
此次正式发布的Claude 4系列包含两个核心模型:
1、Claude Opus 4:被定义为Claude系列中最强大、最智能的模型,尤其被誉为当前业界的“世界最佳编码模型”。Opus 4在编码和智能体任务上表现卓越,尤其擅长处理复杂、需要持续专注和大量步骤的长时间任务。客户验证其可以在没有人干预的情况下自主工作长达7小时!它能深入理解你的代码库,规划新增功能,在代码迁移、重构等方面极其有效和准确。
2、Claude Sonnet 4:作为Sonnet 3.7的重大升级,Sonnet 4在保持效率的同时,显著提升了智能和性能。它非常适合日常编码任务、应用开发和结对编程,是效率与性能的完美平衡,可以成为你“始终在线的编码伙伴”。GitHub、iGent等客户都对其在智能体场景、遵循复杂指令、清晰推理和应用开发方面的能力表示赞赏。
这两个模型都是混合模型,提供两种模式:近乎即时响应和用于深度思考的扩展思考模式。即使在非编码和非数学用例中,深度思考模式也被许多客户使用。
二、Claude 4模型的亮点和核心能力解读
Claude 4带来了一系列关键新能力,使得构建强大的AI智能体成为可能。这些能力共同增强了Claude作为协作伙伴的潜力。
1、代码执行能力 (Code Execution):Claude现在不仅能编写代码,还能在一个环境中运行代码。这使其能够像数据分析师一样,分析原始数据、生成图表,并迭代地优化代码和结果。这意味着Claude可以承担需要数小时自主工作的任务。



2、工具使用与编排 (Tool Use & Orchestration):Claude 4能够在扩展思考过程中使用工具,如网络搜索,从而获取实时信息并基于当前事件进行推理。它们还能并行处理多个工具。Claude被视为Agent的“架构师和总承包商”,能够智能地编排所需的工具来解决复杂问题。

3、强大的记忆能力 (Memory):这是一项关键突破。当开发者赋予Claude访问本地文件的权限时,它能跨会话维持记忆,保存关键信息,随着时间推移建立知识库。Opus 4在记忆能力上表现尤为突出,能创建并维护“记忆文件”,显著提升其在长时间任务中的表现和连贯性。例如,Opus 4在玩宝可梦时能记下详细的训练笔记。记忆对于长时间工作的智能体至关重要。

4、指令遵循能力 (Instruction Following):Claude 4在遵循复杂指令方面有显著提升。即使系统提示(system prompt)很长(超过10,000 tokens),Claude也能更好地理解和遵循。这使得开发者更容易引导Claude的行为。Anthropic自己在使用Claude 4后,将其Claude AI的系统提示大小减少了70%以上。

5、减少奖励欺骗行为 (Reduced Reward Hacking):之前的模型有时会通过“作弊”方式完成任务,比如硬编码测试结果。Claude 4显著减少了这种行为,在容易出现奖励欺骗的评估任务中,其发生倾向比Sonnet 3.7降低了65%。这使得用户更能信任Claude会以正确的方式完成任务。

6、模型上下文协议 (MCP) (Model Context Protocol):这是一个通用转换器和连接器,让AI智能体能够无缝连接到你现有的系统和工具。微软、谷歌、OpenAI、Block、Atlassian、Zapier、Linear等公司都在使用MCP。它消除了为每个工具编写定制集成代码的需求,被GitHub比作网络的HTTP协议,是将知识融入智能体模型的方式。社区已构建了超过3,000个基于MCP的集成。
7、文件API (Files API):简化了开发者访问和存储文档的方式。可用于实现记忆功能,让Claude读写记忆文件。
8、Prompt缓存升级 (Prompt Caching Upgrade):这是开发者呼声最高的功能之一。现在可以将Prompt缓存长达1小时(之前是5分钟),大幅提升了时长。这显著降低了长Prompt的成本高达90%,延迟降低了85%,使得大规模Agent应用在成本和性能上变得可行。
这些能力的结合,特别是代码执行、工具使用和增强的记忆,根本性地改变了AI智能体能力边界。它们可以拥有完整的上下文,即使在长时间、多步骤的任务中也能维持专注。


三、Claude 4模型的基准测试结果
Claude 4在多个基准测试上的表现出色。
1、Opus 4:在SWE-bench Verified(72.5%)和Terminal-bench(43.2%)等测试中领先。特别是在SWE-bench Verified这一衡量实际软件工程任务表现的基准上表现出色。使用更高计算资源(并行尝试、结果筛选)时,Opus 4的SWE-bench分数可达79.4%。这进一步巩固了其“世界最佳代码模型”的地位。
2、Sonnet 4:在SWE-bench上也表现强劲,达到72.7%。在某些编码基准上甚至能与Opus 4媲美。使用更高计算资源时,Sonnet 4的SWE-bench分数可达80.2%。
总体而言,Claude 4模型在编码、推理、多模态能力和智能体任务上都展现了强大的性能。Anthropic也提到,基准测试并不能完全反映模型在实际应用中的全部能力。
四、应用前景
Claude 4的能力扩展为各行各业带来了广泛的应用前景。
1、软件开发:Opus 4和Sonnet 4都能作为强大的编码伙伴。Claude Code智能体编码工具现在已可用(Generally Available)并支持:
1)与主流IDE(VS Code/JetBrains)集成:实时查看并接受或反馈代码修改。
2)通过Claude Code SDK与GitHub集成:可在 PR 或 Issue 中响应评审反馈、修复 CI 错误或自动更新文档。
4)支持并行运行多个实例:处理如修复测试、提高覆盖率、进行 On-call 值班等任务。
5)甚至自主完成复杂编程任务:例如为开源项目 Excalidraw 添加表格组件,涵盖代码编写、测试、创建 PR 及更新文档等全流程。








对于开发者,Boris分享了一些实用技巧:从代码库Q&A开始,了解代码结构;利用Claude MD文件提供上下文和团队知识;使用工具让Claude检查自己的工作(如运行测试);在编写代码前让Claude先头脑风暴或制定计划。Prompt缓存功能则能显著降低长Prompt的成本。

访问链接:
https://www.youtube.com/watch?v=6eBSHbLKuN0&t=506s
2、企业应用:Claude平台已经为各领域的AI交付提供支持。例如,TurboTax利用Claude提供税务解释;Novo Nordisk使用Claude起草临床研究报告,将原本15周的任务缩短到不足10分钟;Thompson Reuters利用Claude为其法律分析提供支持。MCP连接器使得Claude能与Sentry、Zapier、Asana等多种企业工具无缝集成。AI Agent能帮助初创公司并行运行实验,提高企业效率。

平台主要组件和能力包括:
1)基础服务 (Foundation):
-
模型推理服务 (Model Inference Service):提供通过 Messages API 访问 Claude 模型的能力。 -
提示词缓存 (Prompt Caching):一项关键功能,用于优化性能和成本。它能将输入token的超过50%进行缓存,有效扩展模型的上下文窗口。最新更新已将缓存存活时间从5分钟延长到1小时 (Premium 1-hour TTL),这极大地降低了长时间运行智能体工作流的成本。
2)强大的智能体构建模块 (Powerful Agent Building Blocks):

-
文件 API (Files API):用于简化开发者访问和存储文档的流程,帮助构建模型的记忆功能。
-
代码执行工具 (Code Execution Tool):允许Claude在环境中编写和运行代码,使其能充当数据分析师,处理数据并迭代优化。
-
网络搜索 (Web Search):使Claude能够实时访问最新信息,增强其推理能力。
-
引用 (Citations):用于将模型的回复能追溯到源文档中,确保信息准确性和合规性。
3)核心连接能力 (Core Connecting Capability):
-
Model Context Protocol (MCP):Anthropic开源并被广泛采用的协议,充当 AI 智能体的通用翻译器和连接器。它允许智能体无缝连接到开发者现有的系统、数据和应用程序(如 Sentry, Zapier, Asana 等),无需定制集成。平台负责处理工具和 API 调用的技术复杂性。
4)开发者工具和资源 (Developer Tools and Resources):
-
提供 Prompt Improver、Evaluations 以及新的 Observability 特性,帮助开发者更快地投入生产和扩展。
-
提供 Cookbook 和 Guides,指导开发者实现记忆等功能。
5)agentic Tools & Applications (智能体工具和应用):
-
Claude Code:作为构建在平台能力之上的一个重要示例,它是一个 agentic 编码工具,已普遍可用 (General Access)。它提供终端访问,并与 VS Code 和 Jet Brains IDE 集成,支持内联代码差异查看。
-
Claude Code SDK:允许开发者基于 Claude Code 的核心智能体构建自己的应用程序和工作流,例如集成到 GitHub 中,用于响应 PR 评审、修复 CI 错误等。
平台支持API的自由组合,Claude 可以智能地编排这些工具来处理复杂的任务,实现智能体编排,而非硬编码的工作流。以帮助开发者更快、更好地交付AI。
另GitHub Copilot当前已支持Claude Sonnet 4 和 Opus 4 模型。GitHub推出采用MCP (Model Context Protocol),由Claude Sonnet驱动的异步“同行编程”的GitHub Copilot编程智能体,未来GitHub将集成 Claude Code 及其 SDK 到 GitHub 的 Agent 平台,为开发者提供更直观、高效的体验。
3、数据分析与研究:代码执行能力使Claude能像数据分析师一样工作。生物医学和科学研究也是Opus 4极具潜力的领域。它也能用于ML建模。
4、AI Agent的发展:Claude 4是构建更强大的AI Agent的基础。这些Agent可以长时间自主工作,并行处理任务,甚至可能改变未来的软件工程模式,让开发者更多地成为“管理人力Agent”。CEO Dario Amade大胆预测,到2026年可能会出现只有一名人类员工的十亿美元公司。

5、更广泛影响:Anthropic认为,AI正加速产品构建,提高企业效率。AI降低了软件生产的成本,未来可能会出现为特定事件、在几秒内以极低成本生成定制软件的场景。
五、如何快速体验Claude 4
想亲身体验Claude 4的强大能力?现在有多种途径:
1)Claude.ai:直接访问Claude的网页界面。

2)Anthropic API:开发者可以通过API访问Claude 4模型。
3)Claude Code:这款Agent编码工具已普遍可用。可以通过简单的命令行安装。VS Code和JetBrains的集成也在Beta中提供。GitHub集成(Beta)可以通过命令安装。
4)云平台:Claude 4模型也可在Amazon Bedrock和Google Cloud的Vertex AI平台上使用。
请注意,目前免费用户只能使用Sonnet 4模型,而付费用户(Pro, Max, Team, Enterprise计划)可以使用Opus 4和Sonnet 4,并享用扩展思考模式。
六、Claude 4 未来展望
Anthropic的愿景是通过构建强大、有益且值得信赖的AI系统来赋能开发者,让AI成为增强人类能力的倍增器。
首席执行官Dario Amade认为,AI正走向更高的自主性。未来的软件工程工作可能更多是“管理人力Agent”。他还对Claude 4在网络安全和生物医学/科学研究领域的潜力感到兴奋。他甚至大胆预测,到2026年可能会出现只有一名人类员工的十亿美元公司!
Anthropic也非常重视安全和可信赖性。他们引入了架构安全检查点,确保在关键决策时保留人类监督,并通过可解释性研究来理解模型的内部运作,从而更好地引导它们。他们认为,安全和能力是可以同步前进的。


Anthropic的旅程仍在继续。他们计划持续改进Claude 4系列模型,未来的重点将继续围绕强大的Agent工具、更深入的上下文集成和高效的规模化。

Dario给开发者最重要的建议是:“要有雄心”。去构建那些你认为可能不可能实现的事情,因为下一代模型可能很快就会让它成为现实。
结语
Anthropic发布的Claude 4及其一系列平台和工具能力(如代码执行、强大的记忆、MCP、1小时缓存等),从根本改变了AI智能体的能力边界。它们正在加速各行各业的创新和效率提升。从强大的编码助手到能长时间自主完成复杂任务的智能体,Claude 4让我们看到了AI帮助人类实现“超人工作”的可能性。
参考材料:
1:Introducing Claude 4
https://www.anthropic.com/news/claude-4
2:Code with Claude Opening Keynote
https://www.youtube.com/watch?v=EvtPBaaykdo&t=1723s
3:Mastering Claude Code in 30 minutes
热门文章阅读:
教育部新发布2025版《中小学人工智能通识教育指南》和《中小学生成式人工智能使用指南》解读
2025年TOP100生成式AI热门应用场景
谷歌AI笔记NotebookLM升级版:个人高效学习和研究的利器
理解AI智能体前沿领域的60个关键词
2025年值得关注的50款AI工具简介
人工智能如何改变学校?基于25个全球案例的洞察
MIT Cognimates创新平台:赋予孩子驾驭未来AI力量
2025国外最具前景的AI 50榜单解读
AI成熟度模型:企业智能化升级的指路明灯
AI智能体:下一波企业AI转型的新驱动力
AI赋能教学的100个实用AI提示词
国外AI赋能教育的35个应用场景
微软最新更新发布的300+企业AI转型案例
AI智能体(AI Agents):下一代智能革命的引擎
国外AI赋能教学十大升级策略案例
揭秘人工智能发展进程的50篇关键论文