Enrutamiento de modelos: deja de usar un solo modelo para todo

Translated for your language. Leer el original.

AI-assisted draft.

anteayer2min de lectura

Enrutamiento de modelos: deje de usar un solo modelo para todo

Ejecutar un modelo de 70B para resumir un correo electrónico corto es un desperdicio. Usar un modelo de 3B para revisar código es arriesgado. La mayoría de los sistemas se encuentran en un punto medio. Aquí es donde el enrutamiento de modelos ayuda.

El enrutamiento empareja la dificultad de la tarea con la capacidad del modelo. Ahorra dinero y reduce los tiempos de espera. La mayoría de las personas usan un solo modelo para todo. Esto funciona hasta que los costos o la velocidad se convierten en problemas.

Utilice estas cuatro estrategias:

• Basado en la capacidad: Enrute según lo que el modelo puede hacer. • Sensible al costo: Enrute según su presupuesto. • Sensible a la latencia: Enrute según la rapidez con la que necesite una respuesta. • Híbrido: Combine las tres.

Empareje sus tareas con el tamaño adecuado:

Clasificación y etiquetado: modelos de 1-3B (p. ej., Qwen2.5-1.5B).
Resumen y extracción: modelos de 3-7B (p. ej., Llama-3.1-8B).
Generación de código: modelos de 7-14B (p. ej., DeepSeek-Coder).
Razonamiento complejo: modelos de 14-32B (p. ej., Llama-3.1-70B).
Escritura creativa y análisis: modelos de 32B+ (p. ej., GPT-4).

Si un modelo pequeño puede manejar una tarea, no utilice uno grande. Un modelo de 1.5B maneja bien el análisis de sentimiento; simplemente no puede escribir un ensayo.

Los modelos locales son una opción inteligente. No cuestan casi nada después de comprar el hardware. Ejecutar un modelo local puede ser mucho más barato que pagar por tokens de API si procesa miles de solicitudes.

Considere estos casos de uso para la velocidad:

Chat en tiempo real: Use modelos de menos de 7B para respuestas instantáneas.
Herramientas interactivas: Use modelos de menos de 14B.
Procesamiento por lotes: Use cualquier tamaño de modelo.

Si construye un enrutador, incluya una cadena de respaldo (fallback). Comience con el mejor modelo. Si falla o alcanza un límite, pase al siguiente mejor. El último modelo en su cadena debe ser un modelo local. Los modelos locales no fallan debido a problemas de red o límites de API.

El enrutamiento añade complejidad. No lo utilice si todas las tareas que realiza tienen la misma dificultad. Comience con un solo modelo. Añada un enrutador solo cuando el costo o la velocidad se conviertan en un problema.

Fuente: https://dev.to/rosgluk/model-routing-stop-using-one-model-for-everything-4mf1

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi

Enrutamiento de modelos: deja de usar un solo modelo para todo

Seguir leyendo

𝗧𝗵𝗿𝗲𝗲 𝗠𝗼𝗱𝗲𝗹𝘀, 𝗧𝗵𝗿𝗲𝗲 𝗢𝗽𝗶𝗻𝗶𝗼𝗻𝘀, 𝗭𝗲𝗿𝗼 𝗗𝗼𝗹𝗹𝗮𝗿𝘀

Optimización de costos para sistemas LLM

Diseño de sistemas multi-modelo: cuando un solo modelo no es suficiente

𝗟𝗟𝗠 𝗚𝗮𝘁𝗲𝘄𝗮𝘆𝘀: 𝗥𝗼𝘂𝘁𝗶𝗻𝗴, 𝗙𝗮𝗹𝗹𝗯𝗮𝗰𝗸𝘀, 𝗔𝗻𝗱 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗖𝗮𝗰𝗵𝗶𝗻𝗴

Ya nadie quiere tu modelo de 70B parámetros