Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界


前言:Anthropic公司今天在其首届“Code with Claude”开发者大会上,正式推出新一代AI旗舰模型:Claude Opus 4和Claude Sonnet 4。新模型提升了一系列关键能力:代码执行、强大记忆、MCP、1小时缓存,使得构建强大的AI智能体成为可能,Claude Opus 4甚至在没有人干预的情况下自主工作长达7小时。这些能力极大增强了Claude作为”虚拟协作伙伴“的潜力,让我们看到了AI帮助人类实现“超人工作”的可能性,并将重塑未来工作方式和企业构建模式
Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界
Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界
Agent落地途径,分享AI科普知识和工具使用心得!” data-id=”MzI0MDM4MzQzOA==” data-is_biz_ban=”0″ data-service_type=”1″ data-verify_status=”0″>

一、Claude 4 简介

此次正式发布的Claude 4系列包含两个核心模型

1Claude Opus 4被定义为Claude系列中最强大、最智能的模型,尤其被誉为当前业界的“世界最佳编码模型”。Opus 4在编码和智能体任务上表现卓越,尤其擅长处理复杂、需要持续专注和大量步骤的长时间任务。客户验证其可以在没有人干预的情况下自主工作长达7小时!它能深入理解你的代码库,规划新增功能,在代码迁移、重构等方面极其有效和准确

2Claude Sonnet 4作为Sonnet 3.7的重大升级,Sonnet 4在保持效率的同时,显著提升了智能和性能。它非常适合日常编码任务、应用开发和结对编程,是效率与性能的完美平衡,可以成为你“始终在线的编码伙伴”。GitHub、iGent等客户都对其在智能体场景、遵循复杂指令、清晰推理和应用开发方面的能力表示赞赏

这两个模型都是混合模型,提供两种模式:近乎即时响应和用于深度思考的扩展思考模式。即使在非编码和非数学用例中,深度思考模式也被许多客户使用

、Claude 4模型的亮点和核心能力解读

Claude 4带来了一系列关键新能力,使得构建强大的AI智能体成为可能。这些能力共同增强了Claude作为协作伙伴的潜力。

1代码执行能力 (Code Execution)Claude现在不仅能编写代码,还能在一个环境中运行代码。这使其能够像数据分析师一样,分析原始数据、生成图表,并迭代地优化代码和结果。这意味着Claude可以承担需要数小时自主工作的任务

Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界
Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界
Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界

2工具使用与编排 (Tool Use & Orchestration)Claude 4能够在扩展思考过程中使用工具,如网络搜索,从而获取实时信息并基于当前事件进行推理。它们还能并行处理多个工具。Claude被视为Agent的“架构师和总承包商”,能够智能地编排所需的工具来解决复杂问题

Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界

3强大的记忆能力 (Memory)这是一项关键突破。当开发者赋予Claude访问本地文件的权限时,它能跨会话维持记忆,保存关键信息,随着时间推移建立知识库。Opus 4在记忆能力上表现尤为突出,能创建并维护“记忆文件”,显著提升其在长时间任务中的表现和连贯性。例如,Opus 4在玩宝可梦时能记下详细的训练笔记。记忆对于长时间工作的智能体至关重要

Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界

4指令遵循能力 (Instruction Following)Claude 4在遵循复杂指令方面有显著提升。即使系统提示(system prompt)很长(超过10,000 tokens),Claude也能更好地理解和遵循。这使得开发者更容易引导Claude的行为。Anthropic自己在使用Claude 4后,将其Claude AI的系统提示大小减少了70%以上

Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界

5减少奖励欺骗行为 (Reduced Reward Hacking)之前的模型有时会通过“作弊”方式完成任务,比如硬编码测试结果。Claude 4显著减少了这种行为,在容易出现奖励欺骗的评估任务中,其发生倾向比Sonnet 3.7降低了65%。这使得用户更能信任Claude会以正确的方式完成任务

Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界

6模型上下文协议 (MCP) (Model Context Protocol)这是一个通用转换器和连接器,让AI智能体能够无缝连接到你现有的系统和工具。微软、谷歌、OpenAI、Block、Atlassian、Zapier、Linear等公司都在使用MCP。它消除了为每个工具编写定制集成代码的需求,被GitHub比作网络的HTTP协议,是将知识融入智能体模型的方式。社区已构建了超过3,000个基于MCP的集成

Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界

7文件API (Files API)简化了开发者访问和存储文档的方式。可用于实现记忆功能,让Claude读写记忆文件

8Prompt缓存升级 (Prompt Caching Upgrade)这是开发者呼声最高的功能之一。现在可以将Prompt缓存长达1小时(之前是5分钟),大幅提升了时长。这显著降低了长Prompt的成本高达90%延迟降低了85%,使得大规模Agent应用在成本和性能上变得可行

这些能力的结合,特别是代码执行、工具使用和增强的记忆,根本性地改变了AI智能体能力边界。它们可以拥有完整的上下文,即使在长时间、多步骤的任务中也能维持专注

Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界
Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界

、Claude 4模型的基准测试结果

Claude 4在多个基准测试上的表现出色。

Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界

Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界

1Opus 4在SWE-bench Verified(72.5%)和Terminal-bench(43.2%)等测试中领先。特别是在SWE-bench Verified这一衡量实际软件工程任务表现的基准上表现出色。使用更高计算资源(并行尝试、结果筛选)时,Opus 4的SWE-bench分数可达79.4%。这进一步巩固了其“世界最佳代码模型”的地位

2Sonnet 4在SWE-bench上也表现强劲,达到72.7%。在某些编码基准上甚至能与Opus 4媲美。使用更高计算资源时,Sonnet 4的SWE-bench分数可达80.2%

总体而言,Claude 4模型在编码、推理、多模态能力和智能体任务上都展现了强大的性能。Anthropic也提到,基准测试并不能完全反映模型在实际应用中的全部能力

、应用前景

Claude 4的能力扩展为各行各业带来了广泛的应用前景。

1软件开发Opus 4和Sonnet 4都能作为强大的编码伙伴。Claude Code智能体编码工具现在已可用(Generally Available)支持

1)与主流IDE(VS Code/JetBrains)集成实时查看并接受或反馈代码修改

2)通过Claude Code SDK与GitHub集成:可在 PR 或 Issue 中响应评审反馈、修复 CI 错误或自动更新文档。

3)支持大规模代码迁移:Anthropic 已在内部用于大规模代码迁移并显著缩短新人上手时间。

4)支持并行运行多个实例处理如修复测试、提高覆盖率、进行 On-call 值班等任务

5)甚至自主完成复杂编程任务:例如为开源项目 Excalidraw 添加表格组件,涵盖代码编写、测试、创建 PR 及更新文档等全流程

Claude Code智能体编码工具显著提高开发效率,将需要数天完成的任务缩短到数小时甚至更短
Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界
Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界
Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界
Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界
Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界
Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界
Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界
Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界

对于开发者,Boris分享了一些实用技巧从代码库Q&A开始,了解代码结构;利用Claude MD文件提供上下文和团队知识;使用工具让Claude检查自己的工作(如运行测试);在编写代码前让Claude先头脑风暴或制定计划。Prompt缓存功能则能显著降低长Prompt的成本

Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界

访问链接:

https://www.youtube.com/watch?v=6eBSHbLKuN0&t=506s

2企业应用:Claude平台已经为各领域的AI交付提供支持。例如,TurboTax利用Claude提供税务解释;Novo Nordisk使用Claude起草临床研究报告,将原本15周的任务缩短到不足10分钟;Thompson Reuters利用Claude为其法律分析提供支持。MCP连接器使得Claude能与Sentry、Zapier、Asana等多种企业工具无缝集成。AI Agent能帮助初创公司并行运行实验,提高企业效率

Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界

平台主要组件和能力包括:

1)基础服务 (Foundation)

  • 模型推理服务 (Model Inference Service)提供通过 Messages API 访问 Claude 模型的能力

  • 提示词缓存 (Prompt Caching)一项关键功能,用于优化性能和成本。它能将输入token的超过50%进行缓存,有效扩展模型的上下文窗口。最新更新已将缓存存活时间从5分钟延长到1小时 (Premium 1-hour TTL),这极大地降低了长时间运行智能体工作流的成本


2)强大的智能体构建模块 (Powerful Agent Building Blocks)

Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界
  • 文件 API (Files API)用于简化开发者访问和存储文档的流程,帮助构建模型的记忆功能


  • 代码执行工具 (Code Execution Tool)允许Claude在环境中编写和运行代码,使其能充当数据分析师,处理数据并迭代优化


  • 网络搜索 (Web Search)使Claude能够实时访问最新信息,增强其推理能力


  • 引用 (Citations)用于将模型的回复能追溯到源文档中,确保信息准确性和合规性


3)核心连接能力 (Core Connecting Capability)

  • Model Context Protocol (MCP):Anthropic开源并被广泛采用的协议,充当 AI 智能体的通用翻译器和连接器。它允许智能体无缝连接到开发者现有的系统、数据和应用程序(如 Sentry, Zapier, Asana 等),无需定制集成。平台负责处理工具和 API 调用的技术复杂性


4)开发者工具和资源 (Developer Tools and Resources)

  • 提供 Prompt Improver、Evaluations 以及新的 Observability 特性,帮助开发者更快地投入生产和扩展

  • 提供 Cookbook 和 Guides,指导开发者实现记忆等功能


5)agentic Tools & Applications (智能体工具和应用)

  • Claude Code作为构建在平台能力之上的一个重要示例,它是一个 agentic 编码工具,已普遍可用 (General Access)。它提供终端访问,并与 VS Code 和 Jet Brains IDE 集成,支持内联代码差异查看


  • Claude Code SDK允许开发者基于 Claude Code 的核心智能体构建自己的应用程序和工作流,例如集成到 GitHub 中,用于响应 PR 评审、修复 CI 错误等


平台支持API的自由组合,Claude 可以智能地编排这些工具来处理复杂的任务,实现智能体编排,而非硬编码的工作流。以帮助开发者更快、更好地交付AI。

GitHub Copilot当前已支持Claude Sonnet 4 和 Opus 4 模型。GitHub推出采用MCP (Model Context Protocol),由Claude Sonnet驱动的异步“同行编程”的GitHub Copilot编程智能体未来GitHub将集成 Claude Code 及其 SDK 到 GitHub 的 Agent 平台,为开发者提供更直观、高效的体验。

Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界

3数据分析与研究代码执行能力使Claude能像数据分析师一样工作。生物医学和科学研究也是Opus 4极具潜力的领域。它也能用于ML建模

4AI Agent的发展Claude 4是构建更强大的AI Agent的基础。这些Agent可以长时间自主工作,并行处理任务,甚至可能改变未来的软件工程模式,让开发者更多地成为“管理人力Agent”。CEO Dario Amade大胆预测,到2026年可能会出现只有一名人类员工的十亿美元公司

Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界

5更广泛影响Anthropic认为,AI正加速产品构建,提高企业效率。AI降低了软件生产的成本,未来可能会出现为特定事件、在几秒内以极低成本生成定制软件的场景

、如何快速体验Claude 4

想亲身体验Claude 4的强大能力?现在有多种途径

1)Claude.ai直接访问Claude的网页界面

Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界

2)Anthropic API开发者可以通过API访问Claude 4模型

3)Claude Code这款Agent编码工具已普遍可用。可以通过简单的命令行安装。VS Code和JetBrains的集成也在Beta中提供。GitHub集成(Beta)可以通过命令安装

4)云平台Claude 4模型也可在Amazon Bedrock和Google Cloud的Vertex AI平台上使用

请注意,目前免费用户只能使用Sonnet 4模型,而付费用户(Pro, Max, Team, Enterprise计划)可以使用Opus 4和Sonnet 4,并享用扩展思考模式

、Claude 4 未来展望

Anthropic的愿景是通过构建强大、有益且值得信赖的AI系统来赋能开发者,让AI成为增强人类能力的倍增器

首席执行官Dario Amade认为,AI正走向更高的自主性。未来的软件工程工作可能更多是“管理人力Agent”。他还对Claude 4在网络安全和生物医学/科学研究领域的潜力感到兴奋。他甚至大胆预测,到2026年可能会出现只有一名人类员工的十亿美元公司

Anthropic也非常重视安全和可信赖性。他们引入了架构安全检查点,确保在关键决策时保留人类监督,并通过可解释性研究来理解模型的内部运作,从而更好地引导它们。他们认为,安全和能力是可以同步前进的

Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界
Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界

Anthropic的旅程仍在继续。他们计划持续改进Claude 4系列模型,未来的重点将继续围绕强大的Agent工具、更深入的上下文集成和高效的规模化

Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界

Dario给开发者最重要的建议是:“要有雄心”。去构建那些你认为可能不可能实现的事情,因为下一代模型可能很快就会让它成为现实

结语

Anthropic发布的Claude 4及其一系列平台和工具能力(如代码执行、强大的记忆、MCP、1小时缓存等),从根本改变了AI智能体的能力边界。它们正在加速各行各业的创新和效率提升。从强大的编码助手到能长时间自主完成复杂任务的智能体,Claude 4让我们看到了AI帮助人类实现“超人工作”的可能性

参考材料:

1:Introducing Claude 4

https://www.anthropic.com/news/claude-4

2:Code with Claude Opening Keynote

https://www.youtube.com/watch?v=EvtPBaaykdo&t=1723s

3:Mastering Claude Code in 30 minutes

https://www.youtube.com/watch?v=6eBSHbLKuN0
4:Taking Claude to the Next Level
https://www.youtube.com/watch?v=nZCy8E5jlok

热门文章阅读:

教育部新发布2025版《中小学人工智能通识教育指南》和《中小学生成式人工智能使用指南》解读

2025年TOP100生成式AI热门应用场景

谷歌AI笔记NotebookLM升级版:个人高效学习和研究的利器

理解AI智能体前沿领域的60个关键词

2025年值得关注的50款AI工具简介

人工智能如何改变学校?基于25个全球案例的洞察

MIT Cognimates创新平台:赋予孩子驾驭未来AI力量

2025国外最具前景的AI 50榜单解读

AI成熟度模型:企业智能化升级的指路明灯

AI智能体:下一波企业AI转型的新驱动力

AI赋能教学的100个实用AI提示词

国外AI赋能教育的35个应用场景

微软最新更新发布的300+企业AI转型案例

AI智能体(AI Agents):下一代智能革命的引擎

国外AI赋能教学十大升级策略案例

揭秘人工智能发展进程的50篇关键论文

RAG技术前沿技术新闻资讯

RAG创始人关于RAG Agent的10个思考(下)

2025-5-25 6:34:19

RAG技术前沿技术新闻资讯

国内60%AI应用背后的搜索公司,怎么看AI幻觉问题?|AI幻觉捕手

2025-5-25 7:37:09

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索