如何评测Agent Skills？Anthropic给出了解决方案

当你在给Agent接入Skills时，有没有遇到Skills并不是每次都有效的烦恼呢。

那么如何去验证Skills是否能在合适的时候触发？在编辑后效果是否提升？以及在新模型上是否依然有效？

针对这些问题，Anthropic敏锐地捕捉到了大家的痛点，将软件工程中严谨的「测试、基准跑分、迭代」理念引入到了skill-creator中，让非技术人员也可以去测试、衡量和优化Agent Skills。

Skills 分类与评测

目前，Agent Skills可以分成两类，这决定了为什么要测试它们：

能力提升型（Capability uplift skills）

这类Skills用来教大模型做它原来做不到或做不好的事情，比如极其复杂的PDF表格排版。

但是随着大模型能力越来越强，很可能模型自身就学会了这项能力，那么这类skill的评测主要用来判断，当前Agent接入的这个Skill还有没有存在的必要了。

偏好编码型（Encoded preference skills）

这类Skills主要是用来固化独有的SOP，比如你们公司的NDA审查流程、你每周从多个工具拉取数据进行汇总分析的业务流程。

这类Skills对于你和你团队来说很重要，评测主要是为了确保Agent能够严格遵守业务流程。

Skill Creator的三大利器

利器1：引入评测（Evals）

Skill-creator现在可以帮你做评测了！

你来为Skill定义测试标准，Skill-creator会帮你跑这份测试集，告诉你这项Skill是否合格。

主要有两个用途：及时发现质量退化、理解模型进展。

此外，在模型更新或迭代内容后跑一遍基准测试（Benchmark），它会跟踪评估通过率、耗时、token消耗量三个关键指标。

这些结果你可以集成到数据看板中，或关联到CI系统。

利器2：支持多智能体评测与 A/B 测试

以前线性运行评测速度慢，而且上下文容易互相污染。

现在skill-creator支持同时启动多个独立智能体并行跑测试，每个智能体都在干净独立的上下文中，拥有自己的Token和计时指标。

此外，还新增了做A/B测试的比较智能体。

用来对比两个版本skill，或者对比有skill和无skill，并在不知情的情况下，客观评判谁更好，从而你可以知道更改是否真的有帮助。

利器3：触发器调优（Trigger optimization）

Skill再厉害，如果大模型“想不起来用”也白搭。

随着Skill数量增多，描述的精准性变得至关重要：

Skill Creator会自动分析你当前的描述和示例提示，并主动建议如何修改，以减少误触和漏触。

洞察评测与skill未来

目前Skills本质上是一份操作指南，告诉模型一步一步 How to do。

但随着大模型越来越聪明，Anthropic认为：Skill描述和测试标准的界限会逐渐消失。

未来，你只需要定义评测标准，告诉模型“什么样是好结果”，这个评测标准本身就会直接成为Skill的全部。

如何使用呢？

Claude.ai和Cowork中可以直接使用最新的skill-creator，Claude Code需要安装skill-creator插件。

{{userData.name}}已认证