Evaluación de la calidad de la salida de los LLM en producción
En marzo de 2023, GPT-4 identificaba números primos con una precisión del 97,6 %. Para junio de 2023, ese mismo modelo cayó al 2,4 % de precisión. Nadie cambió el código. Nadie cambió el prompt. El modelo simplemente se desplazó.
Este es el problema central de los LLM en producción. Usted no controla el modelo. Es una dependencia que deriva. Si no lo mide, sus usuarios le dirán que está roto.
No puede confiar en sensaciones o en un "me parece que está bien". Necesita señales repetibles.
El software tradicional es determinista. La misma entrada equivale a la misma salida. Los LLM rompen esta regla. Son no deterministas y lo "correcto" suele ser difuso.
Para gestionar esto, necesita tres capas de evaluación:
- Evaluaciones offline: Ejecute un conjunto de pruebas fijo en cada cambio para detectar regresiones.
- Comprobaciones sin referencia: Utilice señales como la detección de alucinaciones cuando no tenga una respuesta "correcta".
- Monitorización en producción: Observe el tráfico real para detectar derivas y caídas de calidad.
La base es un Golden Dataset. No utilice muestras aleatorias. Utilice un conjunto curado de casos difíciles. Utilice entradas vacías, casos límite extraños y prompts adversarios. 80 ejemplos precisos superan a 8.000 aleatorios.
Al utilizar un LLM como juez, tenga cuidado con estos sesgos:
- Sesgo de posición: Los jueces suelen favorecer la primera respuesta que ven. Corrija esto realizando comparaciones en ambos órdenes.
- Sesgo de verbosidad: Los jueces premian las respuestas más largas incluso si son menos claras.
- Sesgo de auto-mejora: Los modelos prefieren el texto de su propia familia. Utilice diferentes familias de modelos para juzgar las salidas.
Para la monitorización en tiempo real, utilice la RAG Triad para comprobar:
- Fidelidad: ¿Se ciñe la respuesta al contexto?
- Relevancia de la respuesta: ¿Responde a la pregunta?
- Relevancia del contexto: ¿Recuperó el sistema los documentos correctos?
Deje de tratar la calidad del modelo como una propiedad fija. Trátela como la latencia o las tasas de error. Se mueve. Su trabajo es notar cuándo deja de ser buena.
Empiece poco a poco. Escriba 20 ejemplos de oro. Utilícelos para servir de filtro en sus despliegues. Añada heurísticas de producción económicas más adelante.
Los equipos que duermen bien no son los que tienen los modelos más inteligentes. Son los que saben, en cuestión de una hora, si su modelo se vuelve más torpe.
Fuente: https://dev.to/nazar_boyko/evaluating-llm-output-quality-in-production-39an
Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi
