LLM 的博弈视角:合作、竞争与策略稳定性
1. 为什么需要博弈视角
多模型系统中,每个模型都是策略主体。
系统行为不再是单模型性能的线性叠加,而是策略互动结果。
2. 基本形式
设策略集合 $S_i$、收益函数 $u_i$:
$$ \max_{s_i\in S_i} u_i(s_i,s_{-i}) $$
若存在 $s^*$ 使任一主体单边偏离都不增益,则为纳什均衡。
3. 在 LLM 场景的映射
- 合作:共享中间推理、互补能力分工。
- 竞争:争夺调用预算、优先响应权。
- 协同失败:信息隐瞒、重复劳动、策略漂移。
4. 设计启示
- 收益函数要绑定系统目标,而非单代理局部最优。
- 加入沟通成本,抑制无意义“长对话”。
- 通过审计奖励惩罚错误自信与幻觉传播。
5. 实务建议
- 对关键任务做“代理间一致性检查”。
- 用沙盒实验观察策略是否收敛。
- 对抗场景下引入最坏情形鲁棒目标。
博弈论让你从“模型能力”升级到“系统行为治理”。