Claude 4

Claude Opus 4 和 Claude Sonnet 4 ，为编码、高级推理和 AI 代理设定新的标准。

两种模型都可以并行使用工具，更精确地遵循指令，并且当开发人员授予其访问本地文件的权限时，

可以显著提高记忆能力，提取和保存关键事实以保持连续性并随着时间的推移建立隐性知识。

Claude Opus 4 是Anthropic迄今为止最强大的模型，也是全球最佳的编码模型，在 SWE-bench（72.5%）和 Terminal-bench（43.2%）上均领先。

它在需要专注投入和数千个步骤的长时间运行任务中表现出色，能够连续工作数小时——其性能远超所有 Sonnet 模型，并显著扩展了 AI 代理的功能。

Claude4 四大能力分析：API, Code, Research, Integration

Claude Opus 4 在内存能力方面也显著超越了所有前代型号。

当开发者构建允许 Claude 访问本地文件的应用程序时，Opus 4 能够熟练地创建和维护“内存文件”来存储关键信息。

这能够提升代理在长期任务中的感知能力、连贯性和执行性能——

例如，Opus 4 在玩宝可梦时能够创建“导航指南”。

当克劳德·奥普斯4号获得本地文件访问权限时，它会记录关键信息，以帮助改进游戏体验。

Claude 4 模型引入了思维摘要功能，该功能使用较小的模型来压缩冗长的思维过程。这种摘要功能仅在约 5% 的情况下才需要使用——大多数思维过程都足够短，可以完整显示。

API能力增强

Anthropic API 的四项新功能：

代码执行工具、MCP 连接器、文件 API 以及将提示缓存长达一小时的能力

项目管理 AI 代理可以使用 MCP 连接器和 Asana 来引用任务和分配工作，通过文件 API 上传相关报告，使用代码执行工具分析进度和风险，并始终保持完整的上下文 – 同时通过扩展提示缓存来降低成本。

开发人员能够构建代理，执行用于高级数据分析的代码，通过 MCP 服务器连接到外部系统，

跨会话高效存储和访问文件，并使用经济高效的缓存维持长达 60 分钟的上下文 – 无需构建自定义基础设施。

这些功能与现有的网页搜索和引文等功能相结合，构成了构建 AI 代理的综合工具包的一部分。

Anthropic API 上引入了一个代码执行工具，使 Claude 能够在沙盒环境中运行 Python 代码，从而生成计算结果和数据可视化。

这将使 Claude 从代码编写助手转变为数据分析师，能够迭代可视化结果、清理数据集，并直接在 API 调用中获得洞察。

借助代码执行工具，Claude 可以加载数据集、生成探索性图表、识别模式，并根据执行结果迭代优化输出——所有这些都在一次交互中完成。

这意味着 Claude 可以端到端地处理复杂的分析任务，而不仅仅是单独运行代码。

Anthropic API 可以自动处理所有连接管理、工具发现和错误处理。

只需在API 请求中添加远程 MCP 服务器 URL，即可立即访问强大的第三方工具，从而显著降低构建支持工具的代理的复杂性。

当 Claude 收到配置了 MCP 服务器的请求时，它会自动：

连接到指定的 MCP 服务器
检索可用工具
关于调用什么工具以及传递什么参数的原因
代理执行工具调用，直到获得足够的结果
管理身份验证和错误处理
返回带有集成数据的增强响应

Files API 简化了开发者使用 Claude 构建时存储和访问文档的方式。

现在无需在每个请求中都管理文件上传，只需上传一次文档，即可在对话中反复引用它们。

这简化了开发工作流程，特别是对于需要处理大型文档集（例如知识库、技术文档或数据集）的应用程序。

Files API 将与代码执行工具集成，使 Claude 能够在代码执行期间直接访问和处理已上传的文件，并在响应中生成图表和图形等文件。

这意味着开发人员只需通过 Files API 上传一次数据集，即可让 Claude 在多个会话中对其进行分析，而无需重新上传。

开发者现在可以选择标准的 5 分钟生存时间 (TTL) 来缓存提示，也可以选择额外付费的 1 小时延长生存时间 ——这项改进提升了 12 倍，可以降低长时间运行的代理工作流程的费用。

借助延长缓存，客户可以向 Claude 提供丰富的背景知识和示例，同时将成本降低高达 90%，并将长时间提示的延迟降低高达 85%。

这使得构建能够长期维护上下文的代理变得切实可行，无论它们是处理多步骤工作流程、分析复杂文档，还是与其他系统协作。

Claude Code

Claude Opus 4 擅长编码和解决复杂问题，为前沿代理产品提供动力。
Cursor 称其为编码领域的最新技术，并在复杂代码库理解方面实现了飞跃。
Replit 报告称，其跨多个文件的复杂更改的精度和显著改进。
Block 称其为第一个在其代理（代号 goose）中在编辑和调试过程中提高代码质量，同时保持完整性能和可靠性的模型。
Rakuten 通过独立运行 7 小时且性能稳定的高要求开源重构验证了其功能。
GitHub 表示，Claude Sonnet 4 在代理场景中表现出色，并将作为 GitHub Copilot 中新编码代理的基础模型引入。
Manus 强调了其在执行复杂指令、清晰推理和美观输出方面的改进。
iGent 报告称，Sonnet 4 在自主多功能应用程序开发方面表现出色，并显著改进了问题解决和代码库导航能力，将导航错误率从 20% 降至接近零

Claude Code 将 Claude Opus 4嵌入到用户自己的终端中。

它具有深度代码库感知能力，能够直接在环境中编辑文件和运行命令。

具体亮点：

使用代理搜索来了解整个代码库，无需手动选择上下文
对多个文件进行协调更改
使用 Claude Opus 4 专门针对代码理解和生成进行了优化
就在你的终端内——无需上下文切换
与 VS Code 和 JetBrains IDE 集成
可配置；在 SDK 上构建或在 GitHub Actions 上运行

使用示例：

Research

主要包括两个功能：Research 和Google Workspace

Research功能基本上是为了追齐其他大厂已有能力。看来 Google 为了狙击 OpenAI，居然同意 Claude 生态接入他们的应用，有点意思，估计是被太多次抢头条了，压力来到了 OpenAI 这边。

Research

Claude 以Agent方式运作，进行多次相互关联的搜索，同时确定下一步的调查目标。它会自动探索问题的不同角度，并系统地解答开放式问题。

这种方法能够提供详尽的答案，并附带易于查阅的引文。

Research功能可在几分钟内提供高质量、全面的答案。

Google Workspace

Claude 现在除了与 Google 文档集成外，还与 Gmail 和日历集成。

通过连接 Google Workspace，Claude 可以安全地搜索电子邮件、查看文档并查看日历安排，无需手动上传文件或反复提供有关您的工作和日程安排的信息。

Integration

Claude 能够通过 Web 和桌面应用与远程 MCP 服务器无缝协作。

开发者可以构建和托管服务器以增强 Claude 的功能，而用户可以发现任意数量的服务器并将其连接到 Claude。

当工具连接到 Claude 时，它会深入了解项目历史、任务状态和组织知识——并能够全面采取行动。

举例说明

通过访问 Atlassian 的 Jira 和 Confluence，Claude 可以协作构建新产品、更有效地管理任务，并通过同时总结和创建多个 Confluence 页面和 Jira 工作项来扩展工作。

总体来说，模型层面更大的上下文，记忆能力优化是亮点，不过可能跟 Gemini2.5 pro 还有一定差距(个人观点，待验证)

Coding 能力，集成工具能力，Code SDK,集成谷歌应用生态是亮点。

Coding 还是 Claude 看家本领，后面有机会给大家秀一下 Cursor + Claude4。

{{userData.name}}已认证

Claude4 四大能力分析：API, Code, Research, Integration

Claude 4

API能力增强

Claude Code

Research

Integration

Claude 4：彻底炸了

Prompt工程师必备：复旦重磅 | 最佳RAG实践长什么样的？