如何评测Agent Skills?Anthropic给出了解决方案


当你在给Agent接入Skills时,有没有遇到Skills并不是每次都有效的烦恼呢。

那么如何去验证Skills是否能在合适的时候触发?在编辑后效果是否提升?以及在新模型上是否依然有效?

针对这些问题,Anthropic敏锐地捕捉到了大家的痛点,将软件工程中严谨的测试、基准跑分、迭代」理念引入到了skill-creator中,让非技术人员也可以去测试、衡量和优化Agent Skills。

Skills 分类与评测


目前,Agent Skills可以分成两类,这决定了为什么要测试它们:

  能力提升型(Capability uplift skills)

这类Skills用来教大模型做它原来做不到或做不好的事情,比如极其复杂的PDF表格排版。

但是随着大模型能力越来越强,很可能模型自身就学会了这项能力,那么这类skill的评测主要用来判断,当前Agent接入的这个Skill还有没有存在的必要了。

  偏好编码型(Encoded preference skills)

这类Skills主要是用来固化独有的SOP,比如你们公司的NDA审查流程、你每周从多个工具拉取数据进行汇总分析的业务流程。

这类Skills对于你和你团队来说很重要,评测主要是为了确保Agent能够严格遵守业务流程。

Skill Creator的三大利器


  利器1:引入评测(Evals)

Skill-creator现在可以帮你做评测了!

你来为Skill定义测试标准,Skill-creator会帮你跑这份测试集,告诉你这项Skill是否合格。

主要有两个用途:及时发现质量退化、理解模型进展。

此外,在模型更新或迭代内容后跑一遍基准测试(Benchmark,它会跟踪评估通过率、耗时、token消耗量三个关键指标。

这些结果你可以集成到数据看板中,或关联到CI系统。

如何评测Agent Skills?Anthropic给出了解决方案

  利器2:支持多智能体评测与 A/B 测试

以前线性运行评测速度慢,而且上下文容易互相污染。

现在skill-creator支持同时启动多个独立智能体并行跑测试,每个智能体都在干净独立的上下文中,拥有自己的Token和计时指标。

此外,还新增了做A/B测试的比较智能体。

用来对比两个版本skill,或者对比有skill和无skill,并在不知情的情况下,客观评判谁更好,从而你可以知道更改是否真的有帮助。

如何评测Agent Skills?Anthropic给出了解决方案

  利器3:触发器调优(Trigger optimization

Skill再厉害,如果大模型“想不起来用”也白搭。

随着Skill数量增多,描述的精准性变得至关重要:

  • 如果描述太宽泛,会导致误触发;

  • 如果描述太局限,则导致漏触发。

Skill Creator会自动分析你当前的描述和示例提示,并主动建议如何修改,以减少误触和漏触。

洞察评测与skill未来


目前Skills本质上是一份操作指南告诉模型一步一步 How to do。

但随着大模型越来越聪明,Anthropic认为:Skill描述和测试标准的界限会逐渐消失。

未来,你只需要定义评测标准,告诉模型“什么样是好结果”,这个评测标准本身就会直接成为Skill的全部。


如何使用呢?

Claude.ai和Cowork中可以直接使用最新的skill-creator,Claude Code需要安装skill-creator插件。

前沿技术大模型技术新闻资讯

刚刚!小米手机可以养小龙虾🦞了

2026-5-1 14:37:50

前沿技术新闻资讯智能硬件

Puppeteer MCP:让AI自动化模拟真实用户操作,实现浏览器复杂交互!

2026-5-1 14:38:18

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索