Por que os benchmarks padrão de IA subestimam sistematicamente as capacidades dos agentes

Translated for your language. Ler o original.

AI-assisted draft.

GyaanSetu Editorialhá 22 horas3min de leitura

Por que os benchmarks padrão de IA subestimam sistematicamente as capacidades dos agentes

Neste artigo

Por que os Benchmarks de IA Padrão Subestimam Sistematicamente as Capacidades dos Agentes

Os métodos atuais de avaliação de IA não estão conseguindo capturar o verdadeiro potencial dos modelos de fronteira, muitas vezes confundindo a falta de orçamento computacional com a falta de inteligência. O AI Security Institute (AISI) do Reino Unido revelou que o desempenho de agentes de IA não é uma pontuação fixa, mas uma curva de escala que sobe acentuadamente com o aumento do processamento em tempo de teste (test-time compute).

A Curva de Computação-Capacidade

A principal descoberta da pesquisa do AISI é que a taxa de sucesso de um agente de IA está intrinsecamente ligada ao seu "test-time compute" — a quantidade de poder de processamento e tokens que um agente tem permissão para utilizar ao trabalhar em uma tarefa. Quando os pesquisadores aplicam limites de orçamento fixos às avaliações, eles estão medindo a capacidade mínima de um modelo, em vez de seu potencial máximo.

Esse fenômeno é visível em múltiplos domínios de alto risco. Em tarefas de engenharia de software usando benchmarks como TerminalBench 2.0 e SWE-Bench Pro, as taxas de sucesso aumentaram aproximadamente 25% quando o orçamento de tokens foi elevado de um milhão para dez milhões. Da mesma forma, tarefas matemáticas e acadêmicas no "Humanity's Last Exam" tiveram um ganho de 22% quando o orçamento atingiu cinco milhões de tokens.

A Lei de Potência do Tempo de Tarefa Humano vs. IA

O estudo estabeleceu uma correlação direta entre o tempo que um especialista humano requer para uma tarefa e o consumo de tokens exigido por um agente de IA. Essa relação segue uma lei de potência: uma tarefa que leva um minuto para um humano custa milhares de tokens para um agente, enquanto uma tarefa de uma hora custa milhões.

Isso cria um ponto cego massivo nos testes atuais. Por exemplo, a tarefa de cibersegurança do AISI "The Last Ones" requer aproximadamente 20 horas de expertise humana. Nenhum modelo testado pelo instituto conseguiu resolver essa tarefa com menos de 30 milhões de tokens. Ao usar avaliações padrão de baixo orçamento, os pesquisadores estão, efetivamente, excluindo as tarefas mais complexas e críticas do processo de medição.

Acelerando o Progresso e os Três Eixos de Melhoria

O AISI observa que o "horizonte temporal" dos modelos de fronteira — a complexidade das tarefas que eles podem lidar — está se expandindo muito mais rápido do que se pensava anteriormente. Embora estimativas anteriores sugerissem que o horizonte temporal para tarefas de cibersegurança dobrava a cada 4,7 meses com um orçamento fixo de 2,5 milhões de tokens, essa taxa acelera significativamente em orçamentos mais altos. Com 50 milhões de tokens, a taxa de duplicação acelera para cada 40 a 50 dias.

Modelos mais novos (como as séries GPT e Claude testadas) mostram melhorias em três dimensões específicas:

Alcance (Reach): A capacidade de enfrentar tarefas cada vez mais difíceis.
Confiabilidade (Reliability): A capacidade de resolver a mesma tarefa de forma mais consistente.
Eficiência (Efficiency): A capacidade de resolver tarefas usando menos tokens.

Implicações para a Segurança e Implementação de IA

Esta pesquisa muda o paradigma da avaliação de IA de "pontuações fixas" para "curvas conscientes de computação" (compute-aware curves). Para desenvolvedores e fundadores, isso significa que a utilidade de um modelo não é apenas uma função de seu treinamento, mas de quanto processamento de inferência é alocado durante a implementação.

À medida que o custo por token continua a cair, capacidades que antes pareciam economicamente inviáveis se tornarão o padrão. Para a segurança e proteção de IA, isso significa que os riscos relacionados a agentes autônomos — como ataques cibernéticos complexos — podem ser significativamente subestimados se reguladores e empresas dependerem de benchmarks tradicionais de baixo orçamento.

Principais Conclusões

Benchmarks são enganosos: Orçamentos de tokens fixos capturam o desempenho mínimo de um modelo, subestimando sistematicamente o teto do que os agentes de IA podem alcançar.
A computação escala a capacidade: As taxas de sucesso em engenharia de software e matemática saltam significativamente à medida que o orçamento de processamento em tempo de teste aumenta.
A taxa de "duplicação" está acelerando: Em orçamentos de computação mais altos, a taxa na qual os modelos de fronteira dominam tarefas complexas é muito mais acentuada do que o estimado anteriormente.

Por que os benchmarks padrão de IA subestimam sistematicamente as capacidades dos agentes

Por que os Benchmarks de IA Padrão Subestimam Sistematicamente as Capacidades dos Agentes

A Curva de Computação-Capacidade

A Lei de Potência do Tempo de Tarefa Humano vs. IA

Acelerando o Progresso e os Três Eixos de Melhoria

Implicações para a Segurança e Implementação de IA

Principais Conclusões

Continuar lendo

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

A Avaliação de Agentes de IA Termina Cedo Demais

A Ascensão da IA Agêntica: Por que as Equipes de Tecnologia estão Liderando a Fronteira da Automação

Por que os Modelos de IA de Fronteira Falham em Testes de Triagem Financeira