Leaderboards de Agentes Enganam sob Mudança de Distribuição
Os atuais leaderboards de agentes de IA estão quebrados.
A maioria dos leaderboards pega um agente e o transforma em uma única pontuação. Em seguida, classificam os agentes do maior para o menor. Isso parece bom em um relatório, mas falha no mundo real.
Um novo artigo da IBM intitulado "Beyond Static Leaderboards" explica o porquê.
O Problema: Pontuações Agregadas
Uma única pontuação média é um sinal fraco para implantação. Uma avaliação deve dizer qual agente você deve lançar. Se o principal agente em um benchmark não for o principal agente em seu ambiente de produção, o leaderboard mentiu para você.
A IBM descobriu que os rankings baseados em pontuações agregadas não se transferem quando as condições mudam. Isso é chamado de mudança de distribuição (distribution shift).
A Analogia: Velocistas ao Vento
- Imagine classificar velocistas em uma pista coberta, sem vento.
- O Velocista A vence. O Velocista B fica em segundo.
- Agora, leve a corrida para o ar livre, com um vento forte.
- O ranking muda. O Velocista B vence. O Velocista A cai para terceiro.
O cronômetro da pista coberta não estava errado. Ele mediu a velocidade em uma configuração específica. Ele apenas não conseguiu prever como os corredores se sairiam no vento.
A Solução: Validade Preditiva
A IBM propõe o uso de validade preditiva em vez de apenas pontuações brutas.
A validade preditiva mede a correlação de ranking entre um benchmark e os resultados do mundo real. Ela faz uma pergunta simples: a ordem dos agentes permanece a mesma quando o ambiente muda?
- Alta validade preditiva: O leaderboard prevê o vencedor do mundo real.
- Baixa validade preditiva: O leaderboard aponta para o agente errado.
Conceitos-Chave:
- In-sample: As tarefas específicas que o benchmark utiliza.
- Out-of-distribution: Novas tarefas, novas ferramentas ou dados diferentes vistos durante a implantação.
- Instabilidade de ranking: Quando uma pequena mudança nas tarefas reorganiza todo o leaderboard.
Pare de tratar benchmarks como meros placares. Trate-os como ferramentas de medição. Se uma ferramenta não consegue prever o resultado que lhe interessa, ela é inútil para a produção.
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi
