Leaderboards de Agentes Enganam sob Mudança de Distribuição

Os atuais leaderboards de agentes de IA estão quebrados.

A maioria dos leaderboards pega um agente e o transforma em uma única pontuação. Em seguida, classificam os agentes do maior para o menor. Isso parece bom em um relatório, mas falha no mundo real.

Um novo artigo da IBM intitulado "Beyond Static Leaderboards" explica o porquê.

O Problema: Pontuações Agregadas

Uma única pontuação média é um sinal fraco para implantação. Uma avaliação deve dizer qual agente você deve lançar. Se o principal agente em um benchmark não for o principal agente em seu ambiente de produção, o leaderboard mentiu para você.

A IBM descobriu que os rankings baseados em pontuações agregadas não se transferem quando as condições mudam. Isso é chamado de mudança de distribuição (distribution shift).

A Analogia: Velocistas ao Vento

  • Imagine classificar velocistas em uma pista coberta, sem vento.
  • O Velocista A vence. O Velocista B fica em segundo.
  • Agora, leve a corrida para o ar livre, com um vento forte.
  • O ranking muda. O Velocista B vence. O Velocista A cai para terceiro.

O cronômetro da pista coberta não estava errado. Ele mediu a velocidade em uma configuração específica. Ele apenas não conseguiu prever como os corredores se sairiam no vento.

A Solução: Validade Preditiva

A IBM propõe o uso de validade preditiva em vez de apenas pontuações brutas.

A validade preditiva mede a correlação de ranking entre um benchmark e os resultados do mundo real. Ela faz uma pergunta simples: a ordem dos agentes permanece a mesma quando o ambiente muda?

  • Alta validade preditiva: O leaderboard prevê o vencedor do mundo real.
  • Baixa validade preditiva: O leaderboard aponta para o agente errado.

Conceitos-Chave:

  • In-sample: As tarefas específicas que o benchmark utiliza.
  • Out-of-distribution: Novas tarefas, novas ferramentas ou dados diferentes vistos durante a implantação.
  • Instabilidade de ranking: Quando uma pequena mudança nas tarefas reorganiza todo o leaderboard.

Pare de tratar benchmarks como meros placares. Trate-os como ferramentas de medição. Se uma ferramenta não consegue prever o resultado que lhe interessa, ela é inútil para a produção.

Fonte: https://dev.to/pueding/agent-leaderboards-mislead-under-distribution-shift-ibm-predictive-validity-4d0c

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi