Claude 4
Claude Opus 4 和 Claude Sonnet 4 ,为编码、高级推理和 AI 代理设定新的标准。
两种模型都可以并行使用工具,更精确地遵循指令,并且当开发人员授予其访问本地文件的权限时,
可以显著提高记忆能力,提取和保存关键事实以保持连续性并随着时间的推移建立隐性知识。
Claude Opus 4 是Anthropic迄今为止最强大的模型,也是全球最佳的编码模型,在 SWE-bench(72.5%)和 Terminal-bench(43.2%)上均领先。
它在需要专注投入和数千个步骤的长时间运行任务中表现出色,能够连续工作数小时——其性能远超所有 Sonnet 模型,并显著扩展了 AI 代理的功能。

Claude Opus 4 在内存能力方面也显著超越了所有前代型号。
当开发者构建允许 Claude 访问本地文件的应用程序时,Opus 4 能够熟练地创建和维护“内存文件”来存储关键信息。
这能够提升代理在长期任务中的感知能力、连贯性和执行性能——
例如,Opus 4 在玩宝可梦时能够创建“导航指南”。

当克劳德·奥普斯4号获得本地文件访问权限时,它会记录关键信息,以帮助改进游戏体验。
Claude 4 模型引入了思维摘要功能,该功能使用较小的模型来压缩冗长的思维过程。这种摘要功能仅在约 5% 的情况下才需要使用——大多数思维过程都足够短,可以完整显示。
API能力增强

Anthropic API 的四项新功能:
代码执行工具、MCP 连接器、文件 API 以及将提示缓存长达一小时的能力
项目管理 AI 代理可以使用 MCP 连接器和 Asana 来引用任务和分配工作,通过文件 API 上传相关报告,使用代码执行工具分析进度和风险,并始终保持完整的上下文 – 同时通过扩展提示缓存来降低成本。
开发人员能够构建代理,执行用于高级数据分析的代码,通过 MCP 服务器连接到外部系统,
跨会话高效存储和访问文件,并使用经济高效的缓存维持长达 60 分钟的上下文 – 无需构建自定义基础设施。
这些功能与现有的网页搜索和引文等功能相结合,构成了构建 AI 代理的综合工具包的一部分。
Anthropic API 上引入了一个代码执行工具 ,使 Claude 能够在沙盒环境中运行 Python 代码,从而生成计算结果和数据可视化。
这将使 Claude 从代码编写助手转变为数据分析师,能够迭代可视化结果、清理数据集,并直接在 API 调用中获得洞察。

借助代码执行工具,Claude 可以加载数据集、生成探索性图表、识别模式,并根据执行结果迭代优化输出——所有这些都在一次交互中完成。
这意味着 Claude 可以端到端地处理复杂的分析任务,而不仅仅是单独运行代码。
Anthropic API 可以自动处理所有连接管理、工具发现和错误处理。
只需在API 请求中添加远程 MCP 服务器 URL,即可立即访问强大的第三方工具,从而显著降低构建支持工具的代理的复杂性。
当 Claude 收到配置了 MCP 服务器的请求时,它会自动:
- 连接到指定的 MCP 服务器
- 检索可用工具
- 关于调用什么工具以及传递什么参数的原因
- 代理执行工具调用,直到获得足够的结果
- 管理身份验证和错误处理
- 返回带有集成数据的增强响应
Files API 简化了开发者使用 Claude 构建时存储和访问文档的方式。
现在无需在每个请求中都管理文件上传,只需上传一次文档,即可在对话中反复引用它们。
这简化了开发工作流程,特别是对于需要处理大型文档集(例如知识库、技术文档或数据集)的应用程序。
Files API 将与代码执行工具集成,使 Claude 能够在代码执行期间直接访问和处理已上传的文件,并在响应中生成图表和图形等文件。
这意味着开发人员只需通过 Files API 上传一次数据集,即可让 Claude 在多个会话中对其进行分析,而无需重新上传。
开发者现在可以选择标准的 5 分钟生存时间 (TTL) 来缓存提示 ,也可以选择额外付费的 1 小时延长生存时间 ——这项改进提升了 12 倍,可以降低长时间运行的代理工作流程的费用。
借助延长缓存,客户可以向 Claude 提供丰富的背景知识和示例,同时将成本降低高达 90%,并将长时间提示的延迟降低高达 85%。
这使得构建能够长期维护上下文的代理变得切实可行,无论它们是处理多步骤工作流程、分析复杂文档,还是与其他系统协作。
Claude Code
- Claude Opus 4 擅长编码和解决复杂问题,为前沿代理产品提供动力。
- Cursor 称其为编码领域的最新技术,并在复杂代码库理解方面实现了飞跃。
- Replit 报告称,其跨多个文件的复杂更改的精度和显著改进。
- Block 称其为第一个在其代理 (代号 goose) 中在编辑和调试过程中提高代码质量,同时保持完整性能和可靠性的模型。
- Rakuten 通过独立运行 7 小时且性能稳定的高要求开源重构验证了其功能。
- GitHub 表示,Claude Sonnet 4 在代理场景中表现出色,并将作为 GitHub Copilot 中新编码代理的基础模型引入。
- Manus 强调了其在执行复杂指令、清晰推理和美观输出方面的改进。
- iGent 报告称,Sonnet 4 在自主多功能应用程序开发方面表现出色,并显著改进了问题解决和代码库导航能力,将导航错误率从 20% 降至接近零
Claude Code 将 Claude Opus 4嵌入到用户自己的终端中。
它具有深度代码库感知能力,能够直接在环境中编辑文件和运行命令。
具体亮点:
- 使用代理搜索来了解整个代码库,无需手动选择上下文
- 对多个文件进行协调更改
- 使用 Claude Opus 4 专门针对代码理解和生成进行了优化
- 就在你的终端内——无需上下文切换
- 与 VS Code 和 JetBrains IDE 集成
- 可配置;在 SDK 上构建或在 GitHub Actions 上运行
使用示例:



Research

主要包括两个功能:Research 和Google Workspace
Research功能基本上是为了追齐其他大厂已有能力。看来 Google 为了狙击 OpenAI,居然同意 Claude 生态接入他们的应用,有点意思,估计是被太多次抢头条了,压力来到了 OpenAI 这边。
Research
Claude 以Agent方式运作,进行多次相互关联的搜索,同时确定下一步的调查目标。它会自动探索问题的不同角度,并系统地解答开放式问题。
这种方法能够提供详尽的答案,并附带易于查阅的引文。
Research功能可在几分钟内提供高质量、全面的答案。

Google Workspace
Claude 现在除了与 Google 文档集成外,还与 Gmail 和日历集成。
通过连接 Google Workspace,Claude 可以安全地搜索电子邮件、查看文档并查看日历安排,无需手动上传文件或反复提供有关您的工作和日程安排的信息。

Integration
Claude 能够通过 Web 和桌面应用与远程 MCP 服务器无缝协作。
开发者可以构建和托管服务器以增强 Claude 的功能,而用户可以发现任意数量的服务器并将其连接到 Claude。
当工具连接到 Claude 时,它会深入了解项目历史、任务状态和组织知识——并能够全面采取行动。
举例说明
通过访问 Atlassian 的 Jira 和 Confluence,Claude 可以协作构建新产品、更有效地管理任务,并通过同时总结和创建多个 Confluence 页面和 Jira 工作项来扩展工作。

总体来说,模型层面更大的上下文,记忆能力优化是亮点,不过可能跟 Gemini2.5 pro 还有一定差距(个人观点,待验证)
Coding 能力,集成工具能力,Code SDK,集成谷歌应用生态是亮点。
Coding 还是 Claude 看家本领,后面有机会给大家秀一下 Cursor + Claude4。