Por qué los benchmarks de IA estándar subestiman sistemáticamente las capacidades de los agentes
Los métodos actuales de evaluación de IA no logran capturar el verdadero potencial de los modelos de frontera, confundiendo a menudo la falta de presupuesto computacional con una falta de inteligencia. El AI Security Institute (AISI) del Reino Unido ha revelado que el rendimiento de los agentes de IA no es una puntuación fija, sino una curva de escalado que aumenta drásticamente con el incremento del cómputo en tiempo de prueba (test-time compute).
La curva cómputo-capacidad
El hallazgo central de la investigación del AISI es que la tasa de éxito de un agente de IA está inextricablemente ligada a su "test-time compute" (cómputo en tiempo de prueba): la cantidad de potencia de procesamiento y tokens que se le permite utilizar a un agente mientras trabaja en una tarea. Cuando los investigadores aplican límites de presupuesto fijos a las evaluaciones, están midiendo la capacidad mínima de un modelo en lugar de su potencial máximo.
Este fenómeno es visible en múltiples dominios de alto riesgo. En tareas de ingeniería de software utilizando benchmarks como TerminalBench 2.0 y SWE-Bench Pro, las tasas de éxito aumentaron aproximadamente un 25% cuando el presupuesto de tokens se incrementó de un millón a diez millones. Del mismo modo, las tareas matemáticas y académicas en "Humanity's Last Exam" experimentaron una ganancia del 22% cuando el presupuesto alcanzó los cinco millones de tokens.
La ley de potencia del tiempo de tarea entre humanos e IA
El estudio estableció una correlación directa entre el tiempo que un experto humano requiere para una tarea y el consumo de tokens requerido por un agente de IA. Esta relación sigue una ley de potencia: una tarea que a un humano le toma un minuto le cuesta al agente miles de tokens, mientras que una tarea de una hora le cuesta millones.
Esto crea un punto ciego masivo en las pruebas actuales. Por ejemplo, la tarea de ciberseguridad del AISI "The Last Ones" requiere aproximadamente 20 horas de experiencia humana. Ningún modelo probado por el instituto pudo resolver esta tarea con menos de 30 millones de tokens. Al utilizar evaluaciones estándar de bajo presupuesto, los investigadores están dejando fuera, de manera efectiva, las tareas más complejas y críticas del proceso de medición.
Aceleración del progreso y los tres ejes de mejora
El AISI señala que el "horizonte temporal" de los modelos de frontera —la complejidad de las tareas que pueden manejar— se está expandiendo mucho más rápido de lo que se pensaba anteriormente. Mientras que las estimaciones previas sugerían que el horizonte temporal para tareas cibernéticas se duplicaba cada 4,7 meses con un presupuesto fijo de 2,5 millones de tokens, esa tasa se acelera significativamente con presupuestos más altos. Con 50 millones de tokens, la tasa de duplicación se acelera a cada 40 o 50 días.
Los modelos más nuevos (como las series GPT y Claude probadas) muestran mejoras en tres dimensiones específicas:
- Alcance (Reach): La capacidad de abordar tareas cada vez más difíciles.
- Fiabilidad (Reliability): La capacidad de resolver la misma tarea de manera más consistente.
- Eficiencia (Efficiency): La capacidad de resolver tareas utilizando menos tokens.
Implicaciones para la seguridad y el despliegue de la IA
Esta investigación cambia el paradigma de la evaluación de la IA de "puntuaciones fijas" a "curvas conscientes del cómputo" (compute-aware curves). Para desarrolladores y fundadores, esto significa que la utilidad de un modelo no es solo una función de su entrenamiento, sino de cuánto cómputo de inferencia se le asigna durante el despliegue.
A medida que el coste por token continúa disminuyendo, las capacidades que antes parecían económicamente inviables se convertirán en el estándar. Para la seguridad de la IA, esto significa que los riesgos relacionados con los agentes autónomos —como los ciberataques complejos— podrían estar significativamente subestimados si los reguladores y las empresas confían en benchmarks tradicionales de bajo presupuesto.
Conclusiones clave
- Los benchmarks son engañosos: Los presupuestos de tokens fijos capturan el rendimiento mínimo de un modelo, subestimando sistemáticamente el techo de lo que los agentes de IA pueden lograr.
- El cómputo escala la capacidad: Las tasas de éxito en ingeniería de software y matemáticas aumentan significativamente a medida que aumenta el presupuesto de cómputo en tiempo de prueba.
- La tasa de "duplicación" se está acelerando: Con presupuestos de cómputo más altos, la velocidad con la que los modelos de frontera dominan tareas complejas es mucho más pronunciada de lo estimado anteriormente.
