Page QiView

LLM 行为评测:能力、可靠性与风险三维框架

LLM 行为评测:能力、可靠性与风险三维框架

1. 评测目标先于榜单分数

单一总分不足以支持上线决策。
建议把评测拆成三维:

  1. 能力(任务完成质量)。
  2. 可靠性(分布外、扰动下稳定性)。
  3. 风险(有害内容、越狱、泄露)。

2. 指标设计

  1. 任务指标:准确率、F1、BLEU、ROUGE、Pass@k。
  2. 置信校准:ECE、Brier Score。
  3. 鲁棒性:对抗扰动成功率。
  4. 安全性:违规输出率、拒答误伤率。

3. 评测集分层

  1. 基础能力集(常规题)。
  2. 压力测试集(长上下文、歧义、多跳)。
  3. 红队集(攻击样本、越狱样本)。

4. 评测自动化示意

def evaluate(model, dataset):
    preds = [model(x) for x in dataset["input"]]
    score_task = task_metric(preds, dataset["label"])
    score_safe = safety_metric(preds)
    score_robust = robustness_metric(model, dataset)
    return {
        "task": score_task,
        "safe": score_safe,
        "robust": score_robust,
    }

5. 常见误区

  1. 用同一评测集反复调参导致过拟合。
  2. 只看离线分数,不看线上用户路径。
  3. 把“会回答”误当成“能决策”。

评测体系的价值在于指导治理,而不是制造排行榜幻觉。