基于人类反馈的强化学习(RLHF)是一种机器学习(ML)技术,它利用人类反馈来优化 ML 模型,从而更有效地进行自我学习。强化学习技术可训练软件做出可最大限度地提高回报的决策,使其结果更加准确。RLHF 将人类反馈纳入奖励功能,因此 ML 模型可以执行更符合人类目标、愿望和需求的任务。RLHF 广泛应用于生成式人工智能(生成式 AI)应用程序,包括大型语言模型(LLM)。
奖励模型 (RM) , 大型语言模型 (LLM),两组 (提示,下一个词) 。
审查这两组词并挑选 "赢家";(文档是,他) < (文档是,他们) 因为前者有性别歧视。
3-6 计算词组 1 (输家) 的奖励
将输入向量与奖励模型的权重和偏差 (4×4 矩阵) 相乘
将特征与列向量 [1/3, 1/3, 1/3] 相乘,达到跨三个位置对特征进行平均的效果
将句子嵌入向量与权重和偏差 (1×5 矩阵) 相乘
计算赢家和输家奖励的差值
奖励模型希望这个差距尽可能大且为正数
5 – 3 = 2
将奖励差距映射为概率值作为预测: σ(2) ≈ 0.9
通过预测 – 目标计算损失梯度: 0.9 – 1 = -0.1
运行反向传播和梯度下降来更新奖励模型的权重和偏差 (紫色边框)
输出:3 个 "转换后" 的特征向量,每个位置一个
对每个转换后的特征向量应用线性层将其映射到词汇表上的概率分布。
将新词组 (CEO 是, him) 输入到奖励模型
运行反向传播和梯度下降来更新 LLM 的权重和偏差 (红色边框)