Las tablas de clasificación de agentes inducen a error ante un cambio de distribución
Las tablas de clasificación actuales de agentes de IA no funcionan correctamente.
La mayoría de las tablas de clasificación toman un agente y lo convierten en una única puntuación. Luego, ordenan los agentes de mayor a menor. Esto se ve bien en un informe, pero falla en el mundo real.
Un nuevo artículo de IBM titulado Beyond Static Leaderboards explica el porqué.
El problema: Puntuaciones agregadas
Una única puntuación media es una señal débil para el despliegue. Una evaluación debería indicarte qué agente implementar. Si el agente principal en un benchmark no es el agente principal en tu entorno de producción, la tabla de clasificación te ha mentido.
IBM descubrió que las clasificaciones basadas en puntuaciones agregadas no se transfieren cuando las condiciones cambian. Esto se denomina distribution shift (cambio de distribución).
La analogía: Velocistas con viento en contra
- Imagina clasificar a velocistas en pista cubierta, sin viento.
- El velocista A gana. El velocista B queda segundo.
- Ahora traslada la carrera al exterior, con un viento fuerte.
- La clasificación cambia. El velocista B gana. El velocista A cae al tercer puesto.
El cronómetro de pista cubierta no estaba equivocado. Midió la velocidad en un entorno específico. Simplemente no pudo predecir cómo rendirían los corredores con el viento.
La solución: Validez predictiva
IBM propone utilizar la validez predictiva en lugar de solo puntuaciones brutas.
La validez predictiva mide la correlación de rango entre un benchmark y los resultados del mundo real. Plantea una pregunta sencilla: ¿se mantiene el mismo orden de los agentes cuando cambia el entorno?
- Alta validez predictiva: La tabla de clasificación predice al ganador en el mundo real.
- Baja validez predictiva: La tabla de clasificación señala al agente equivocado.
Conceptos clave:
- In-sample: Las tareas específicas que utiliza el benchmark.
- Out-of-distribution: Nuevas tareas, nuevas herramientas o datos diferentes observados durante el despliegue.
- Rank instability (Inestabilidad de rango): Cuando un pequeño cambio en las tareas reorganiza por completo la tabla de clasificación.
Deja de tratar los benchmarks como simples marcadores. Trátalos como herramientas de medición. Si una herramienta no puede predecir el resultado que te interesa, es inútil para la producción.
Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi
