Agent Leaderboards Mislead Under Distribution Shift

Translated for your language. Read the original.

AI-assisted draft.

In this article

분포 변화 시 에이전트 리더보드가 오해를 불러일으키는 이유

현재의 AI 에이전트 리더보드는 문제가 있습니다.

대부분의 리더보드는 에이전트를 하나의 단일 점수로 변환합니다. 그런 다음 에이전트들을 높은 점수부터 낮은 점수 순으로 정렬합니다. 이는 보고서상으로는 보기 좋지만, 실제 환경에서는 제대로 작동하지 않습니다.

IBM의 새로운 논문인 "Beyond Static Leaderboards"는 그 이유를 설명합니다.

단일 평균 점수는 배포를 결정하기 위한 신호로서 매우 약합니다. 평가는 어떤 에이전트를 출시해야 할지 알려주어야 합니다. 만약 벤치마크의 1위 에이전트가 실제 운영 환경에서의 1위 에이전트가 아니라면, 그 리더보드는 잘못된 정보를 제공한 것입니다.

IBM은 조건이 변할 때 집계 점수에 기반한 순위가 유지되지 않는다는 것을 발견했습니다. 이를 '분포 변화(distribution shift)'라고 합니다.

실내 시계가 틀린 것은 아니었습니다. 시계는 특정 설정에서의 속도를 측정했을 뿐입니다. 다만 바람 속에서 선수들이 어떻게 달릴지 예측하지 못했을 뿐입니다.

IBM은 단순한 원시 점수(raw scores) 대신 예측 타당성을 사용할 것을 제안합니다.

예측 타당성은 벤치마크와 실제 결과 사이의 순위 상관관계(rank correlation)를 측정합니다. 이는 간단한 질문을 던집니다: 환경이 변해도 에이전트의 순위가 그대로 유지되는가?

벤치마크를 단순한 점수판으로 취급하는 것을 멈추십시오. 벤치마크를 측정 도구로 취급해야 합니다. 만약 어떤 도구가 여러분이 중요하게 생각하는 결과를 예측할 수 없다면, 그 도구는 실제 운영 환경에서 무용지물입니다.

학습 커뮤니티(선택 사항): https://t.me/GyaanSetuAi

Continue reading