Los agentes de IA obtuvieron un 0% en tareas de expertos
Los agentes de IA fallaron en tareas de expertos.
El benchmark ALE puso a prueba los mejores modelos en trabajos profesionales. Estas tareas requieren una experiencia real. No son tareas sencillas como resumir un PDF.
Los resultados fueron claros. Modelos como Fable 5 y GPT-5.5 obtuvieron un 0% en los problemas de expertos más difíciles. Lanzar una moneda daría mejores resultados.
El rendimiento en tareas de nivel medio también fue bajo. Los mejores agentes solo alcanzaron una tasa de éxito del 15% al 21%.
Los agentes de IA no son lo que el hype dice que son.
Ves videos de agentes reservando vuelos o escribiendo código. Estas demostraciones se ven geniales. Pero las demos están seleccionadas. Los benchmarks no.
Existe una brecha masiva entre una demo y un despliegue real. Muchos equipos toman decisiones de producto basadas en habilidades que no existen. Planean dejar que los agentes gestionen flujos de trabajo completos. Esto es un error.
Esto es lo que muestran los datos:
- Los agentes funcionan bien como asistentes para tareas de nivel medio.
- La autonomía de experto aún no ha llegado.
- Los benchmarks son más fiables que las demos.
Si construyes con agentes hoy, construye considerando sus límites actuales. No construyas basándote en lo que un conferenciante promete que sucederá pronto.
La industria ignora estos resultados. La gente sigue creando hojas de ruta basadas en el hype en lugar de en los datos.
Si usas agentes en tu producto, trátalos como desarrolladores junior. Trabajan en tareas pequeñas con reglas claras. Fallan en trabajos complejos sin supervisión.
Sigue estas reglas:
- Mantén a un humano en el proceso para trabajos de alto riesgo.
- Dale a los agentes tareas muy específicas.
- Mide el rendimiento frente a tu carga de trabajo real.
Un enfoque pragmático es menos divertido que un hilo de hype. Pero da como resultado software funcional.
Los agentes son herramientas. No son una fuerza laboral autónoma. Construye para la realidad.
¿Cuál es la capacidad de agente más sobrevalorada que has visto que los equipos intentan lanzar? Comparte tus historias abajo.
Fuente: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1
Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi