智能体排行榜在分布偏移下具有误导性
当前的 AI 智能体排行榜已经失效了。
大多数排行榜将一个智能体转化为单一的分数,然后按从高到低的顺序进行排序。这在报告中看起来很美观,但在现实世界中却行不通。
IBM 的一篇名为《Beyond Static Leaderboards》的新论文解释了其中的原因。
问题所在:聚合分数
单一的平均分对于部署来说是一个微弱的信号。评估应该告诉你应该发布哪一个智能体。如果基准测试中的顶级智能体在你的生产环境中并不是顶级的,那么排行榜就在误导你。
IBM 发现,当条件发生变化时,基于聚合分数的排名无法迁移。这被称为“分布偏移”(distribution shift)。
类比:风中的短跑运动员
- 想象一下在没有风的室内赛道上对短跑运动员进行排名。
- 运动员 A 获胜,运动员 B 位列第二。
- 现在将比赛移至有强风的室外。
- 排名发生了变化。运动员 B 获胜,运动员 A 掉到了第三名。
室内计时器并没有错。它测量的是特定环境下的速度。它只是无法预测跑步者在风中的表现。
解决方案:预测效度
IBM 建议使用预测效度(predictive validity),而不仅仅是原始分数。
预测效度衡量基准测试与现实世界结果之间的排名相关性。它提出了一个简单的问题:当环境改变时,智能体的顺序是否保持不变?
- 高预测效度:排行榜能够预测现实世界中的获胜者。
- 低预测效度:排行榜指向了错误的智能体。
核心概念:
- 样本内 (In-sample):基准测试所使用的特定任务。
- 分布外 (Out-of-distribution):部署期间遇到的新任务、新工具或不同数据。
- 排名不稳定性 (Rank instability):当任务发生微小变化时,整个排行榜的排名就会被打乱。
不要再把基准测试仅仅视为计分板。要将其视为测量工具。如果一个工具无法预测你关心的结果,那么它对于生产环境来说就是毫无用处的。
Optional learning community: https://t.me/GyaanSetuAi
