老婆饼里没有老婆,夫妻肺片里没有夫妻,RLHF 里也没有真正的 RL。在最近的一篇博客中,德克萨斯大学奥斯汀分校副教授 Atlas Wang 分享了这样一个观点。

-
博客链接:https://www.linkedin.com/pulse/why-rlhf-other-rl-like-methods-dont-bring-true-rl-llmsand-atlas-wang-s1efc/

区分 RLHF 和经典强化学习
-
在环境中采取行动的智能体。 -
环境会根据智能体的行动改变状态。 -
智能体的行动会受到奖励或惩罚,目的是在多个步骤中实现长期累积奖励的最大化。
-
监督微调(SFT):首先在高质量数据上训练或微调基础语言模型。 -
奖励模型训练:收集成对的输出结果,询问人类更喜欢哪一个,然后训练一个「奖励模型」,以接近人类的判断。 -
策略优化:使用类似强化学习的算法(通常为 PPO,即「近端策略优化」)来调整 LLM 的参数,使其产生奖励模型所喜欢的输出结果。
为什么 RLHF(及相关方法)不是真正的 RL?
-
单步或几步优化。在 RLHF 中,LLM 会基于给定的提示生成文本,然后奖励模型会提供一个单一的偏好分数。RLHF 中的「强化」步骤更类似于一步式策略梯度优化,以实现人类偏好的输出,而不是在不断变化的环境中对状态和行动进行基于智能体的全面循环。这更像是一种「一劳永逸」的评分,而不是让一个智能体随时间推移探索多步行动,并接收环境反馈。
-
大多离线或半离线。奖励模型通常在人类标签数据上进行离线训练,然后用于更新 LLM 的策略。LLM 在线调整策略时,并没有实时探索连续的环境循环。
-
缺乏基于环境的长期(Long-Horizon)目标。经典的 RL 智能体会追踪多个状态下的长期回报。相比之下,基于 RLHF 的 LLM 训练侧重于根据人类偏好调整即时文本输出。LLM 并没有在一个动态环境中导航多个时间步骤。
-
表面约束与真正的内部目标。RLHF 可以有效地影响某些输出的概率 —— 引导模型远离不受欢迎的文本。但模型内部并没有形成产生这些输出的「愿望」或「欲望」;它仍然是一个生成下一个 token 的统计系统。
请记住,不管是 RLHF、SFT 还是其他什么,LLM 都不是为了真正的目标或意图而训练的!LLM 的核心是根据给定上下文预测下一个 token。它们的「动机」纯粹是最大限度地提高下一个 token 的正确率(由训练数据和任何后续微调信号确定)。这个过程并不存在主观上的愿望或意图。我们常说 AlphaZero「想要」在国际象棋中获胜,但这只是一种方便的简单说法。从内部来说,AlphaZero 是在最大化数学奖励函数 —— 没有任何感觉上的欲望。同样,经过 RLHF 调整的 LLM 也在最大化对齐奖励信号,而没有内心的渴望状态。
RLHF vs. IRL 如何?
-
IRL:在经典表述中,智能体通过观察专家在动态环境中的演示来推断奖励函数。相比之下,RLHF 通常收集静态的成对比较(例如,「你更喜欢这两个模型输出中的哪一个?」),并训练一个奖励模型来模仿人类的偏好。在不断演化的环境中,没有扩展的多步骤专家轨迹。 -
RL 中的偏好学习:在当前的深度强化学习中,有一些方法可以从轨迹 rollout 的成对比较中学习奖励函数(例如,「你更喜欢机器人步行者的哪种步态?」)。然而,这些方法往往存在样本复杂度高的问题(例如,需要多次询问人类),因此许多研究论文都采用了在受控任务中模拟人类反应的方法。 -
为什么 RLHF 也不是「经典 IRL」:即使 RLHF 在从人类数据中学习偏好模型方面让人联想到 IRL,它也不是分析专家行为随时间变化的经典方案。相反,RLHF 侧重于人类对最终或短序列输出的静态判断。因此,RLHF 仍然主要是离线或接近离线的,这进一步限制了它与传统 IRL 设置的相似性 —— 尽管 Subbarao Kambhampati 也评论说,从成对偏好中学习奖励函数(已成为(I)RL 文献的主流)!
CoT、PRM 或多智能体工作流有助于解决这个问题吗?
为什么至今还没有人用「真正的 RL」训练 LLM?
-
因为太贵了!大规模模型的经典 RL 需要一个稳定、交互式的环境,外加大量计算来运行重复的 episode。每个训练周期的前向传递次数对于今天的十亿参数 LLM 来说过于昂贵。
-
缺乏环境定义。文本生成并非天然的「状态 – 动作转换」环境。我们可以尝试将其包装成类似游戏的模拟环境,但这样就必须为多步骤文本交互定义奖励结构,而这并非易事。
-
性能已经足够好了。在许多使用案例中,RLHF 或 DPO(直接偏好优化)已经能产生足够好的对齐效果。实事求是地说,团队会坚持使用更简单的离线方法,而不是建立一个复杂的 RL 管道,以巨大的成本换取微不足道的收益。
最接近给 LLM 一个「目标」的现有方法是什么?
-
接收自然语言目标(如「研究 X,然后制定计划」)。 -
反复计划、推理和提示自己。 -
评估进展并完善计划。
LLM 没有「真正目标」的后果
-
简化的对齐(在某些方面)。由于 LLM 没有真正追逐个体目标,它们不太可能「绕过」限制或自主计划非法行为。对齐通常相当于设置正确的提示约束和微调,将其推向可接受的产出。Anthropic 最近的博客与这一观点有关(参见《震惊!Claude 伪对齐率竟能高达 78%,Anthropic 137 页长论文自揭短》)
-
更难委派开放式任务。如果我们希望 AI 能够自发地发现新问题,积极收集资源,并坚持数月来解决这些问题,我们就需要一个具有持续内驱力的系统 —— 类似于真正的 RL 智能体或高级规划系统。目前的 LLM 无法以这种方式实现真正的自我启动。
-
潜在的创新缺失。在丰富的 RL 环境中进行自由探索,可能会产生惊人的发现(如 AlphaZero 在国际象棋或围棋中的突破)。如果依赖于只有表面反馈的单步文本生成,我们可能会错过多步奖励优化所带来的全新策略。
不过,这也有积极的一面。例如,我认为没有持续目标的 LLM 在某些方面更加透明。它本质上是一个由即时反馈信号引导的强大的下一个 token 预测器 —— 没有多步骤 RL 循环中出现的复杂的隐藏目标。
明确时间跨度、目标、奖励和行动空间
-
短期优化:RLHF 和 DPO 有效地针对即时(一步)反馈进行优化。即使反馈函数是通过(从人类标记的数据中)学习获得的,也不存在长期规划的持续状态 – 行动循环。 -
长期优化:在经典 RL 中,智能体会对多个步骤的累积奖励进行优化,形成类似于「目标」的东西。奖励模型与行动空间相结合,可驱动在动态环境中塑造多步骤行为的策略。
后记
-
从业者应该意识到这些局限性,不要高估 LLM 的自主性。 -
政策制定者和伦理学家应该认识到,LLM 不可能自发地策划或撒谎来达到隐藏的目的,除非被提示指引去模仿这种行为。 -
反过来说,如果未来的系统真的结合了具有大规模计算和动态环境的「真正 RL」,我们可能会看到更多类似智能体的突发行为 —— 这就会引发新的调整和安全问题。
未来方向?
-
更高的样本复杂度:一个经常出现的限制因素是,基于偏好的学习可能需要大量的人类 token 比较,尤其是当任务变得越来越复杂时。研究人员通常采用模拟人的判断来进行 RL 实验,但这也带来了新的问题,即这些模拟器如何忠实地模拟真实的人类偏好。
-
扩展到长期任务:许多专家怀疑,短期输出的成对比较能否直接扩展到更复杂的多步骤任务。使用 LLM 进行真正的多步骤 RL 需要一个环境,在这个环境中,模型可以进行探索、获得中间奖励并进行迭代 —— 而这在目前是非常昂贵的,也无法大规模广泛实施。
-
衔接符号与次符号方法:对于真正的长期偏好(如需要概念或符号理解的任务),纯粹的「原始」配对偏好数据可能并不足够。可能需要某种形式的结构化、符号化反馈(或「通用语言」),才能有效地将人类的细微目标传达给人工智能系统。
最后,虽然 RLHF、DPO 和相关方法提供了一种实用的方法,可以在短期环境中使 LLM 与人类偏好保持一致,但它们无法赋予 LLM 真正、持久的目标或意图。这些方法也只是与经典的 RL 或 IRL 范式略有对应。未来的系统若能在真正的多步骤 RL 循环中使用 LLM,就能解锁更多自主的、类似智能体的行为,但同时也会引发新的安全和一致性问题。


