人类评估(Chatbot Arena / LMSYS)
要解决的问题
自动指标与真实用户满意度存在差距。人类评估(众包、专家、产品内反馈)是黄金标准,但成本高、一致性差。LMSYS Chatbot Arena 用匿名 pairwise 投票 + Elo 排名,成为开源社区最引用的「人类偏好」参考,亦暴露统计与博弈问题。
核心概念
| 方式 | 描述 | 优点 | 缺点 |
|---|---|---|---|
| Pairwise 偏好 | 二选一谁更好 | 比绝对分可靠 | 需大样本 |
| Elo / Bradley-Terry | 从成对结果估强度 | 动态排行榜 | 新模型方差大 |
| Likert 量表 | 1–5 分多维 | 细粒度 | 标尺漂移 |
| 专家评 | 安全、医学 | 高可信 | 难扩展 |
Elo 更新(胜者 ,期望 ):
。