𝗠𝗼𝗱𝗲𝗹 𝗥𝗼𝘂𝘁𝗶𝗻𝗴: 𝗦𝘁𝗼𝗽 𝗺𝗲𝘁 𝗵𝗲𝘁 𝗴𝗲𝗯𝗿𝘂𝗶𝗸 𝘃𝗮𝗻 𝗲𝗲𝗻 𝗺𝗼𝗱𝗲𝗹 𝘃𝗼𝗼𝗿 𝗮𝗹𝗹𝗲𝘀
Het draaien van een 70B-model om een korte e-mail samen te vatten is verspilling. Een 3B-model gebruiken om code te beoordelen is riskant. De meeste systemen zitten daar tussenin. Dit is waar model routing helpt.
Routing koppelt de moeilijkheidsgraad van een taak aan de capaciteit van een model. Het bespaart geld en verkort de wachttijden. De meeste mensen gebruiken één model voor alles. Dit werkt totdat kosten of snelheid een probleem worden.
Gebruik deze vier strategieën:
• Op capaciteit gebaseerd: Routeer op basis van wat het model kan doen. • Kostenbewust: Routeer op basis van je budget. • Latentiebewust: Routeer op basis van hoe snel je een reactie nodig hebt. • Hybride: Combineer alle drie.
Koppel je taken aan de juiste grootte:
- Classificatie en tagging: 1-3B-modellen (bijv. Qwen2.5-1.5B).
- Samenvatten en extractie: 3-7B-modellen (bijv. Llama-3.1-8B).
- Codegeneratie: 7-14B-modellen (bijv. DeepSeek-Coder).
- Complex redeneren: 14-32B-modellen (bijv. Llama-3.1-70B).
- Creatief schrijven en analyse: 32B+-modellen (bijv. GPT-4).
Als een klein model een taak aankan, gebruik dan geen groot model. Een 1.5B-model kan sentimentanalyse goed aan. Het kan alleen geen essay schrijven.
Lokale modellen zijn een slimme keuze. Ze kosten bijna niets nadat je de hardware hebt gekocht. Het draaien van een lokaal model kan veel goedkoper zijn dan het betalen voor API-tokens als je duizenden verzoeken verwerkt.
Overweeg deze use cases voor snelheid:
- Real-time chat: Gebruik modellen onder de 7B voor directe reacties.
- Interactieve tools: Gebruik modellen onder de 14B.
- Batchverwerking: Gebruik elke modelgrootte.
Als je een router bouwt, voeg dan een fallback-keten toe. Begin met het beste model. Als het faalt of een limiet bereikt, ga dan over naar het volgende beste model. Het laatste model in je keten moet een lokaal model zijn. Lokale modellen falen niet door netwerkproblemen of API-limieten.
Routing voegt complexiteit toe. Gebruik het niet als elke taak die je uitvoert dezelfde moeilijkheidsgraad heeft. Begin met één model. Voeg pas een router toe wanneer kosten of snelheid een probleem worden.
Bron: https://dev.to/rosgluk/model-routing-stop-using-one-model-for-everything-4mf1
Optionele leercommunity: https://t.me/GyaanSetuAi