LLM 行为评测:能力、可靠性与风险三维框架
1. 评测目标先于榜单分数
单一总分不足以支持上线决策。
建议把评测拆成三维:
- 能力(任务完成质量)。
- 可靠性(分布外、扰动下稳定性)。
- 风险(有害内容、越狱、泄露)。
2. 指标设计
- 任务指标:准确率、F1、BLEU、ROUGE、Pass@k。
- 置信校准:ECE、Brier Score。
- 鲁棒性:对抗扰动成功率。
- 安全性:违规输出率、拒答误伤率。
3. 评测集分层
- 基础能力集(常规题)。
- 压力测试集(长上下文、歧义、多跳)。
- 红队集(攻击样本、越狱样本)。
4. 评测自动化示意
def evaluate(model, dataset):
preds = [model(x) for x in dataset["input"]]
score_task = task_metric(preds, dataset["label"])
score_safe = safety_metric(preds)
score_robust = robustness_metric(model, dataset)
return {
"task": score_task,
"safe": score_safe,
"robust": score_robust,
}
5. 常见误区
- 用同一评测集反复调参导致过拟合。
- 只看离线分数,不看线上用户路径。
- 把“会回答”误当成“能决策”。
评测体系的价值在于指导治理,而不是制造排行榜幻觉。