𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗦𝗰𝗼𝗿𝗲𝗱 𝟬% 𝗢𝗻 𝗘𝘅𝗽𝗲𝗿𝘁 𝗧𝗮𝘀𝗸𝘀

Translated for your language. Leer el original.

AI-assisted draft.

anteayer2min de lectura

Los agentes de IA obtuvieron un 0% en tareas de expertos

Los agentes de IA fallaron en tareas de expertos.

El benchmark ALE puso a prueba los mejores modelos en trabajos profesionales. Estas tareas requieren una experiencia real. No son tareas sencillas como resumir un PDF.

Los resultados fueron claros. Modelos como Fable 5 y GPT-5.5 obtuvieron un 0% en los problemas de expertos más difíciles. Lanzar una moneda daría mejores resultados.

El rendimiento en tareas de nivel medio también fue bajo. Los mejores agentes solo alcanzaron una tasa de éxito del 15% al 21%.

Los agentes de IA no son lo que el hype dice que son.

Ves videos de agentes reservando vuelos o escribiendo código. Estas demostraciones se ven geniales. Pero las demos están seleccionadas. Los benchmarks no.

Existe una brecha masiva entre una demo y un despliegue real. Muchos equipos toman decisiones de producto basadas en habilidades que no existen. Planean dejar que los agentes gestionen flujos de trabajo completos. Esto es un error.

Esto es lo que muestran los datos:

Los agentes funcionan bien como asistentes para tareas de nivel medio.
La autonomía de experto aún no ha llegado.
Los benchmarks son más fiables que las demos.

Si construyes con agentes hoy, construye considerando sus límites actuales. No construyas basándote en lo que un conferenciante promete que sucederá pronto.

La industria ignora estos resultados. La gente sigue creando hojas de ruta basadas en el hype en lugar de en los datos.

Si usas agentes en tu producto, trátalos como desarrolladores junior. Trabajan en tareas pequeñas con reglas claras. Fallan en trabajos complejos sin supervisión.

Sigue estas reglas:

Mantén a un humano en el proceso para trabajos de alto riesgo.
Dale a los agentes tareas muy específicas.
Mide el rendimiento frente a tu carga de trabajo real.

Un enfoque pragmático es menos divertido que un hilo de hype. Pero da como resultado software funcional.

Los agentes son herramientas. No son una fuerza laboral autónoma. Construye para la realidad.

¿Cuál es la capacidad de agente más sobrevalorada que has visto que los equipos intentan lanzar? Comparte tus historias abajo.

Fuente: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗦𝗰𝗼𝗿𝗲𝗱 𝟬% 𝗢𝗻 𝗘𝘅𝗽𝗲𝗿𝘁 𝗧𝗮𝘀𝗸𝘀

Seguir leyendo

El punto ciego de los agentes de IA

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

𝗔𝗺𝗯𝗶𝗲𝗻𝘁 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗼 𝗔𝘃𝗼𝗶𝗱

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

Los agentes de IA tienen un problema de fiabilidad