Mistral Large vs Mistral Medium: Notas de un CTO desde producción
Hace tres meses, lancé una funcionalidad de LLM. Entonces llegó la factura.
Me di cuenta de que cometí un error. Utilicé Mistral Large cuando debería haber usado Mistral Medium. Esto nos costó casi 4 veces más de lo necesario.
Si diriges una startup, no puedes tomar decisiones de arquitectura basadas en sensaciones. Debes tomarlas basándote en el ROI.
El error es simple. Pensé que los modelos más grandes siempre eran mejores. Me equivoqué.
Así es como gestiono los costes de LLM ahora:
- Clasificar la complejidad de la tarea
- Usa modelos más pequeños para clasificaciones o extracciones sencillas.
- Usa modelos más grandes solo para razonamiento de múltiples pasos.
- Estimar el volumen de tokens
- Revisa tus logs.
- Proyecta tu crecimiento.
- Haz los cálculos antes de implementar.
- Medir con evaluaciones reales
- No confíes en tu intuición.
- Ejecuta conjuntos de prueba en ambos modelos.
- Compara las métricas que importan a tu producto.
Para el 70% de mis tareas, Mistral Medium es suficiente. Gestiona la clasificación de tickets de soporte perfectamente. Cuesta un tercio de lo que cobra Large. Reservo Large para tareas de razonamiento de alto nivel.
También evito el vendor lock-in. Utilizo un endpoint unificado para acceder a muchos modelos. Si un proveedor sube los precios, cambio de modelo en cuestión de minutos. Esto protege mi runway.
Mi consejo para los CTO:
- Implementa caché de forma agresiva para reducir las facturas.
- Usa streaming en las respuestas para mejorar la experiencia del usuario.
- Crea una lógica de fallback para que tu sistema permanezca en línea.
- Elige el modelo antes de optimizar el prompt.
- Comprueba los requisitos de la ventana de contexto para cada tarea.
Deja de usar un mazo para tareas que solo necesitan un martillo pequeño. La eficiencia crea ventajas competitivas. Te permite ofrecer mejores funcionalidades y precios más bajos a tus usuarios.
Fuente: https://dev.to/gentlenode/mistral-large-vs-mistral-medium-cto-notes-from-production-280f