Page QiView

LLM 对齐:RLHF、RLAIF 与 DPO 的统一理解

LLM 对齐:RLHF、RLAIF 与 DPO 的统一理解

1. 对齐问题是什么

预训练模型优化的是“下一个 token 概率”,但业务关心的是“是否符合人类偏好”。
对齐就是把优化目标从语言建模迁移到偏好建模。

2. RLHF 三阶段

  1. SFT:监督微调得到可用初始策略。
  2. RM:训练奖励模型拟合偏好排序。
  3. RL:用 PPO 等算法优化策略。

3. RLAIF 与 DPO

  1. RLAIF:用 AI 反馈替代部分人工反馈,降低标注成本。
  2. DPO:直接在偏好对上优化,无需显式奖励模型与 RL 环节。

DPO 目标可写为:

$$ \max_\theta \log \sigma\Big(\beta\log\frac{\pi_\theta(y^+|x)}{\pi_{ref}(y^+|x)} - \beta\log\frac{\pi_\theta(y^-|x)}{\pi_{ref}(y^-|x)}\Big) $$

4. 选型建议

  1. 数据与算力充足:RLHF 上限更高。
  2. 迭代速度优先:DPO 更工程友好。
  3. 标注预算有限:RLAIF 可快速扩容。

5. 常见偏差

  1. 奖励黑客(Reward Hacking)。
  2. 过度拒答(安全策略过强导致可用性下降)。
  3. 偏好数据分布狭窄导致泛化失败。

6. 实务建议

  1. 把对齐评估拆成有用性、真实性、无害性三轴。
  2. 关键场景保留人工红线规则,不完全依赖偏好学习。
  3. 持续做线上偏好回流,避免一次性对齐后漂移。

对齐不是一次训练,而是持续治理过程。