Enrutamiento de modelos: deje de usar un solo modelo para todo
Ejecutar un modelo de 70B para resumir un correo electrónico corto es un desperdicio. Usar un modelo de 3B para revisar código es arriesgado. La mayoría de los sistemas se encuentran en un punto medio. Aquí es donde el enrutamiento de modelos ayuda.
El enrutamiento empareja la dificultad de la tarea con la capacidad del modelo. Ahorra dinero y reduce los tiempos de espera. La mayoría de las personas usan un solo modelo para todo. Esto funciona hasta que los costos o la velocidad se convierten en problemas.
Utilice estas cuatro estrategias:
• Basado en la capacidad: Enrute según lo que el modelo puede hacer. • Sensible al costo: Enrute según su presupuesto. • Sensible a la latencia: Enrute según la rapidez con la que necesite una respuesta. • Híbrido: Combine las tres.
Empareje sus tareas con el tamaño adecuado:
- Clasificación y etiquetado: modelos de 1-3B (p. ej., Qwen2.5-1.5B).
- Resumen y extracción: modelos de 3-7B (p. ej., Llama-3.1-8B).
- Generación de código: modelos de 7-14B (p. ej., DeepSeek-Coder).
- Razonamiento complejo: modelos de 14-32B (p. ej., Llama-3.1-70B).
- Escritura creativa y análisis: modelos de 32B+ (p. ej., GPT-4).
Si un modelo pequeño puede manejar una tarea, no utilice uno grande. Un modelo de 1.5B maneja bien el análisis de sentimiento; simplemente no puede escribir un ensayo.
Los modelos locales son una opción inteligente. No cuestan casi nada después de comprar el hardware. Ejecutar un modelo local puede ser mucho más barato que pagar por tokens de API si procesa miles de solicitudes.
Considere estos casos de uso para la velocidad:
- Chat en tiempo real: Use modelos de menos de 7B para respuestas instantáneas.
- Herramientas interactivas: Use modelos de menos de 14B.
- Procesamiento por lotes: Use cualquier tamaño de modelo.
Si construye un enrutador, incluya una cadena de respaldo (fallback). Comience con el mejor modelo. Si falla o alcanza un límite, pase al siguiente mejor. El último modelo en su cadena debe ser un modelo local. Los modelos locales no fallan debido a problemas de red o límites de API.
El enrutamiento añade complejidad. No lo utilice si todas las tareas que realiza tienen la misma dificultad. Comience con un solo modelo. Añada un enrutador solo cuando el costo o la velocidad se conviertan en un problema.
Fuente: https://dev.to/rosgluk/model-routing-stop-using-one-model-for-everything-4mf1
Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi