别再存轨迹了:SkillRL 让 Agent 把经验炼成技能,还会自我进化
Takeaways
-
论文提出 SkillRL:把交互轨迹“蒸馏”为可检索、可复用的技能(SkillBank),再在强化学习过程中按验证失败递归扩展技能库,实现“策略—技能库”协同进化。 -
相比存原始轨迹的记忆方法,技能抽象带来约 10–20× 的上下文压缩,同时提升决策可用性,缓解“冗余/噪声”与“信息密度”的矛盾。 -
在 ALFWorld、WebShop 与 7 个检索增强 QA 任务上取得 SOTA;消融显示:去掉冷启动 SFT 或用原始轨迹替代技能库会显著掉点。

问题背景:为什么“存轨迹”不够
现有 LLM Agent 的“经验”常以外部记忆形式保存原始轨迹,但轨迹往往冗长、包含探索回退与噪声,导致相似检索时上下文开销高、关键信号稀释,甚至性能随任务复杂度上升而退化。论文主张有效迁移需要“抽象”:类似人类不记每一步,而是形成可复用的技能规则。
方法总览:SkillRL 三件套

SkillRL 由三部分构成(框架概览见 Figure 2):
-
经验驱动的技能蒸馏:用教师模型将成功/失败轨迹分别提炼为“成功策略技能”和“失败教训技能”。 -
层级技能库 SkillBank:区分通用技能 与任务类型相关技能 ,并定义结构化字段(名称、原则、when_to_apply)以便检索与执行。 -
递归技能进化:在 RL 训练中周期性分析验证失败轨迹,生成新技能并更新 SkillBank,使其随策略提升而扩展。
3.1 经验蒸馏:成功保留、失败转为“反例原则”
在环境 中用基座策略采样轨迹
。
对成功集 直接提炼关键决策点与可迁移模式;对失败集 不直接入库,而让教师模型总结“失败发生点、错误原因、正确做法、可泛化规避原则”,把冗长失败轨迹压缩为可执行的“边界条件/反例规则”。
3.2 SkillBank:通用技能 + 任务技能的层级组织
-
通用技能 :跨任务通用的探索、状态校验、目标跟踪与纠错等原则(如系统化探索、动作前检查、避免循环)。 -
任务技能 :面向某类任务的领域序列与启发式(如 WebShop 的“先选变体再确认价格”、ALFWorld 的“先找参照物建立空间关系再执行”)。
这种层级设计用于同时覆盖“基础策略”与“任务特化”,并降低仅靠任务技能导致的泛化不足。
3.3 检索与冷启动:先教会模型“怎么用技能”,再做 RL
推理/训练时,通用技能始终加入上下文;任务技能按语义相似度检索 Top-K:

策略在技能条件下生成动作:

论文强调:仅把技能塞给未适配的基座模型收益有限,因此引入冷启动 SFT:教师生成技能增强的示范轨迹集合 ,用交叉熵目标

让模型学会“检索—解释—应用”技能;该模型也作为 KL 参考策略 。
3.4 递归进化:用验证失败驱动技能库生长
静态技能库难覆盖训练中不断出现的新状态区域。SkillRL 在验证阶段按任务类别监控成功率 ,当 时触发进化:收集失败轨迹 (分层、按失败严重度优先、轮转采样以保持类别多样性),教师生成新增/修订技能:

并更新
,形成“遇到新失败→补技能→再优化”的闭环。
强化学习优化:以 GRPO 为底座
论文采用 GRPO(无 critic、组内相对优势)优化技能增强策略;每个任务采样 条轨迹,二值奖励 ,优势为标准化形式,目标函数为 PPO 风格裁剪项加 KL 正则,KL 参考为冷启动后的 ,以避免 RL 破坏“会用技能”的能力。
实验结果:ALFWorld、WebShop 与检索增强 QA
-
主结果(Table 1):SkillRL 在 ALFWorld 总成功率 89.9%,WebShop 成功率 72.7%,显著超过多类基线(提示式、RL、记忆增强 RL),并在若干高难子任务(如 Cool、Pick2)对 GRPO 有更大优势。 -
检索增强 QA(Table 2):在 7 个数据集上平均 47.1%,优于 Search-R1(38.5%)与 EvolveR(43.1%);在多跳与强组合推理任务(如 Bamboogle)提升更明显。 -
消融(Table 3):去掉层级结构、用原始轨迹替代技能库、去掉冷启动 SFT、去掉动态进化都会掉点;其中“原始轨迹替代技能库”和“去掉冷启动 SFT”降幅最大,显示抽象与“可用技能的初始化”是核心。 -
技能库增长(Figure 3):初始约 55 个技能(通用 12、任务 43),训练中增长到约 100(通用 20、任务 80),以任务技能增长为主。 -
上下文效率(Figure 4):相较原始记忆检索,技能抽象显著减少 prompt tokens,同时保持推理效用。 -
收敛(Figure 5):递归进化带来更快收敛与更高上限。

可复用的“技能”长什么样
附录示例表(如 Table 5–8)展示 SkillBank 的具体形态:既有“系统化探索、动作前检查、循环逃逸”等通用规则,也有 WebShop 的“先核验约束、变体切换后复查价格、发现不匹配立即返回搜索”等细粒度流程技能;同时配套错误分类(如“遗漏约束”“变体导致价格漂移未复查”“过早购买”),用于把失败轨迹转成可执行的防错原则。
运行与复现信息(摘录)
实现使用 Qwen2.5-7B-Instruct 作为基座,教师用于蒸馏与 SFT 数据生成;检索参数示例:,进化触发阈值 ;训练采用 GRPO,学习率 等(更细见超参表 Table 4)。


