别再存轨迹了：SkillRL 让 Agent 把经验炼成技能，还会自我进化

别再存轨迹了：SkillRL 让 Agent 把经验炼成技能，还会自我进化

Takeaways

论文提出 SkillRL：把交互轨迹“蒸馏”为可检索、可复用的技能（SkillBank），再在强化学习过程中按验证失败递归扩展技能库，实现“策略—技能库”协同进化。
相比存原始轨迹的记忆方法，技能抽象带来约 10–20× 的上下文压缩，同时提升决策可用性，缓解“冗余/噪声”与“信息密度”的矛盾。
在 ALFWorld、WebShop 与 7 个检索增强 QA 任务上取得 SOTA；消融显示：去掉冷启动 SFT 或用原始轨迹替代技能库会显著掉点。

问题背景：为什么“存轨迹”不够

现有 LLM Agent 的“经验”常以外部记忆形式保存原始轨迹，但轨迹往往冗长、包含探索回退与噪声，导致相似检索时上下文开销高、关键信号稀释，甚至性能随任务复杂度上升而退化。论文主张有效迁移需要“抽象”：类似人类不记每一步，而是形成可复用的技能规则。

方法总览：SkillRL 三件套

SkillRL 由三部分构成（框架概览见 Figure 2）：

经验驱动的技能蒸馏：用教师模型将成功/失败轨迹分别提炼为“成功策略技能”和“失败教训技能”。
层级技能库 SkillBank：区分通用技能与任务类型相关技能，并定义结构化字段（名称、原则、when_to_apply）以便检索与执行。
递归技能进化：在 RL 训练中周期性分析验证失败轨迹，生成新技能并更新 SkillBank，使其随策略提升而扩展。

3.1 经验蒸馏：成功保留、失败转为“反例原则”

在环境中用基座策略采样轨迹别再存轨迹了：SkillRL 让 Agent 把经验炼成技能，还会自我进化。

对成功集直接提炼关键决策点与可迁移模式；对失败集不直接入库，而让教师模型总结“失败发生点、错误原因、正确做法、可泛化规避原则”，把冗长失败轨迹压缩为可执行的“边界条件/反例规则”。

3.2 SkillBank：通用技能 + 任务技能的层级组织

通用技能：跨任务通用的探索、状态校验、目标跟踪与纠错等原则（如系统化探索、动作前检查、避免循环）。
任务技能：面向某类任务的领域序列与启发式（如 WebShop 的“先选变体再确认价格”、ALFWorld 的“先找参照物建立空间关系再执行”）。
这种层级设计用于同时覆盖“基础策略”与“任务特化”，并降低仅靠任务技能导致的泛化不足。

3.3 检索与冷启动：先教会模型“怎么用技能”，再做 RL

推理/训练时，通用技能始终加入上下文；任务技能按语义相似度检索 Top-K：

策略在技能条件下生成动作：

论文强调：仅把技能塞给未适配的基座模型收益有限，因此引入冷启动 SFT：教师生成技能增强的示范轨迹集合，用交叉熵目标

让模型学会“检索—解释—应用”技能；该模型也作为 KL 参考策略。

3.4 递归进化：用验证失败驱动技能库生长

静态技能库难覆盖训练中不断出现的新状态区域。SkillRL 在验证阶段按任务类别监控成功率，当时触发进化：收集失败轨迹（分层、按失败严重度优先、轮转采样以保持类别多样性），教师生成新增/修订技能：

并更新别再存轨迹了：SkillRL 让 Agent 把经验炼成技能，还会自我进化，形成“遇到新失败→补技能→再优化”的闭环。

强化学习优化：以 GRPO 为底座

论文采用 GRPO（无 critic、组内相对优势）优化技能增强策略；每个任务采样条轨迹，二值奖励，优势为标准化形式，目标函数为 PPO 风格裁剪项加 KL 正则，KL 参考为冷启动后的，以避免 RL 破坏“会用技能”的能力。

实验结果：ALFWorld、WebShop 与检索增强 QA

主结果（Table 1）：SkillRL 在 ALFWorld 总成功率 89.9%，WebShop 成功率 72.7%，显著超过多类基线（提示式、RL、记忆增强 RL），并在若干高难子任务（如 Cool、Pick2）对 GRPO 有更大优势。
检索增强 QA（Table 2）：在 7 个数据集上平均 47.1%，优于 Search-R1（38.5%）与 EvolveR（43.1%）；在多跳与强组合推理任务（如 Bamboogle）提升更明显。
消融（Table 3）：去掉层级结构、用原始轨迹替代技能库、去掉冷启动 SFT、去掉动态进化都会掉点；其中“原始轨迹替代技能库”和“去掉冷启动 SFT”降幅最大，显示抽象与“可用技能的初始化”是核心。
技能库增长（Figure 3）：初始约 55 个技能（通用 12、任务 43），训练中增长到约 100（通用 20、任务 80），以任务技能增长为主。
上下文效率（Figure 4）：相较原始记忆检索，技能抽象显著减少 prompt tokens，同时保持推理效用。
收敛（Figure 5）：递归进化带来更快收敛与更高上限。

可复用的“技能”长什么样

附录示例表（如 Table 5–8）展示 SkillBank 的具体形态：既有“系统化探索、动作前检查、循环逃逸”等通用规则，也有 WebShop 的“先核验约束、变体切换后复查价格、发现不匹配立即返回搜索”等细粒度流程技能；同时配套错误分类（如“遗漏约束”“变体导致价格漂移未复查”“过早购买”），用于把失败轨迹转成可执行的防错原则。

运行与复现信息（摘录）

实现使用 Qwen2.5-7B-Instruct 作为基座，教师用于蒸馏与 SFT 数据生成；检索参数示例：，进化触发阈值；训练采用 GRPO，学习率等（更细见超参表 Table 4）。

{{userData.name}}已认证