Page QiView

LLM 对齐：RLHF、RLAIF 与 DPO 的统一理解

1. 对齐问题是什么

预训练模型优化的是“下一个 token 概率”，但业务关心的是“是否符合人类偏好”。
对齐就是把优化目标从语言建模迁移到偏好建模。

2. RLHF 三阶段

SFT：监督微调得到可用初始策略。
RM：训练奖励模型拟合偏好排序。
RL：用 PPO 等算法优化策略。

3. RLAIF 与 DPO

RLAIF：用 AI 反馈替代部分人工反馈，降低标注成本。
DPO：直接在偏好对上优化，无需显式奖励模型与 RL 环节。

DPO 目标可写为：

$$ \max_\theta \log \sigma\Big(\beta\log\frac{\pi_\theta(y^+|x)}{\pi_{ref}(y^+|x)} - \beta\log\frac{\pi_\theta(y^-|x)}{\pi_{ref}(y^-|x)}\Big) $$

4. 选型建议

数据与算力充足：RLHF 上限更高。
迭代速度优先：DPO 更工程友好。
标注预算有限：RLAIF 可快速扩容。

5. 常见偏差

奖励黑客（Reward Hacking）。
过度拒答（安全策略过强导致可用性下降）。
偏好数据分布狭窄导致泛化失败。

6. 实务建议

把对齐评估拆成有用性、真实性、无害性三轴。
关键场景保留人工红线规则，不完全依赖偏好学习。
持续做线上偏好回流，避免一次性对齐后漂移。

对齐不是一次训练，而是持续治理过程。