LLM 对齐:RLHF、RLAIF 与 DPO 的统一理解
1. 对齐问题是什么
预训练模型优化的是“下一个 token 概率”,但业务关心的是“是否符合人类偏好”。
对齐就是把优化目标从语言建模迁移到偏好建模。
2. RLHF 三阶段
- SFT:监督微调得到可用初始策略。
- RM:训练奖励模型拟合偏好排序。
- RL:用 PPO 等算法优化策略。
3. RLAIF 与 DPO
- RLAIF:用 AI 反馈替代部分人工反馈,降低标注成本。
- DPO:直接在偏好对上优化,无需显式奖励模型与 RL 环节。
DPO 目标可写为:
$$ \max_\theta \log \sigma\Big(\beta\log\frac{\pi_\theta(y^+|x)}{\pi_{ref}(y^+|x)} - \beta\log\frac{\pi_\theta(y^-|x)}{\pi_{ref}(y^-|x)}\Big) $$
4. 选型建议
- 数据与算力充足:RLHF 上限更高。
- 迭代速度优先:DPO 更工程友好。
- 标注预算有限:RLAIF 可快速扩容。
5. 常见偏差
- 奖励黑客(Reward Hacking)。
- 过度拒答(安全策略过强导致可用性下降)。
- 偏好数据分布狭窄导致泛化失败。
6. 实务建议
- 把对齐评估拆成有用性、真实性、无害性三轴。
- 关键场景保留人工红线规则,不完全依赖偏好学习。
- 持续做线上偏好回流,避免一次性对齐后漂移。
对齐不是一次训练,而是持续治理过程。