Por que os benchmarks padrão de IA subestimam sistematicamente as capacidades dos agentes
Por que os benchmarks padrão de IA subestimam sistematicamente as capacidades dos agentes. Os métodos atuais de avaliação de IA não estão conseguindo capturar o verdadeiro potencial dos modelos de fronteira, muitas vezes err...