Page QiView

LLM 行为评测：能力、可靠性与风险三维框架

1. 评测目标先于榜单分数

单一总分不足以支持上线决策。
建议把评测拆成三维：

能力（任务完成质量）。
可靠性（分布外、扰动下稳定性）。
风险（有害内容、越狱、泄露）。

2. 指标设计

任务指标：准确率、F1、BLEU、ROUGE、Pass@k。
置信校准：ECE、Brier Score。
鲁棒性：对抗扰动成功率。
安全性：违规输出率、拒答误伤率。

3. 评测集分层

基础能力集（常规题）。
压力测试集（长上下文、歧义、多跳）。
红队集（攻击样本、越狱样本）。

4. 评测自动化示意

def evaluate(model, dataset):
    preds = [model(x) for x in dataset["input"]]
    score_task = task_metric(preds, dataset["label"])
    score_safe = safety_metric(preds)
    score_robust = robustness_metric(model, dataset)
    return {
        "task": score_task,
        "safe": score_safe,
        "robust": score_robust,
    }

5. 常见误区

用同一评测集反复调参导致过拟合。
只看离线分数，不看线上用户路径。
把“会回答”误当成“能决策”。

评测体系的价值在于指导治理，而不是制造排行榜幻觉。