Por qué el RAG empresarial falla antes de llegar a producción

Todo el mundo me enseña la misma demo de RAG. Responde tres preguntas. Se ve impecable. Funciona.

La probé. Falló.

La demo es un tráiler. No es la película. El RAG en industrias reguladas es diferente. Es difícil.

Ejecuto RAG en mi propio hardware. Uso datos reales. Uso bucles de evaluación que no mienten. Esto es lo que encontré: la demo nunca fue la parte difícil.

El mito dice que si una demo funciona, la producción está cerca. Esto es falso. La mayoría de la gente no realiza pruebas bajo carga real.

Construí una demo de RAG usando 40 PDFs limpios. Funcionó perfectamente. Luego le di 4,000 documentos desordenados con tablas y escaneos. Se desmoronó.

Los números lo demuestran. Un estudio del MIT encontró que el 95% de los pilotos de IA generativa no entregaron ningún retorno medible. Otro benchmark muestra que el 82% de las iniciativas de IA empresarial nunca llegan a producción. Este no es un problema del modelo. Es un problema de la demo.

Probé esto en mi propio equipo. Usé dos RTX 3090 y Postgres con pgvector. Usé 4,000 documentos desordenados y 1.2 millones de chunks. Usé un modelo de embedding local para que los datos permanecieran en mi red.

He aquí la verdad: el modelo no fue el primero en alucinar. La recuperación (retrieval) fue la primera en mentir.

Mi puntuación de fidelidad (faithfulness score) fue de 0.91. El dashboard estaba en verde. Pero mi recuperación de contexto (context recall) fue de solo 0.58. Esto significa que menos de dos tercios de los hechos aparecieron realmente en los chunks recuperados.

Las respuestas sonaban correctas. Estaban fundamentadas en el contexto equivocado. El sistema se mantuvo fiel a la basura.

En las industrias reguladas, acertar no es suficiente. Debes demostrar que acertaste. Necesitas una pista de auditoría (audit trail). Necesitas mostrarle a un regulador qué frase produjo qué respuesta.

El "teatro de demos" no construye eso.

Para sobrevivir, necesitas cuatro cosas:

  • Bucles de evaluación sobre un "golden set". Ejecútalos con cada cambio.
  • Guardrails con abstención. Si la confianza es baja, el sistema debe decir "No lo sé".
  • Observabilidad. Necesitas trazabilidad (tracing) para la recuperación y la generación. No puedes arreglar lo que no puedes ver.
  • Human-in-the-loop. Un humano debe ser el último filtro para las respuestas de alto riesgo.

El modelo es el 20% fácil. La evaluación, los guardrails, la pista de auditoría y el factor humano son el 80% que realmente se lanza al mercado.

Sin evaluación, no hay lanzamiento.

No implementes RAG en un entorno regulado hasta que tu bucle de evaluación esté en verde con datos reales. Confía en la recuperación, no en la demo.

¿Qué consejo sobre RAG falló cuando intentaste pasar a producción? Cuéntame tu fracaso.

Fuente: https://dev.to/ercin/why-enterprise-rag-breaks-before-production-1866

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi