𝗠𝗶𝘀𝘁𝗿𝗮𝗹 𝗟𝗮𝗿𝗴𝗲 𝘃𝘀 𝗠𝗶𝘀𝘁𝗿𝗮𝗹 𝗠𝗲𝗱𝗶𝘂𝗺: 𝗖𝗧𝗢-𝗻𝗼𝘁𝗶𝘁𝗶𝗲𝘀 𝘂𝗶𝘁 𝗽𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗲
Drie maanden geleden heb ik een LLM-feature gelanceerd. Toen kwam de rekening.
Ik realiseerde me dat ik een fout had gemaakt. Ik gebruikte Mistral Large terwijl ik Mistral Medium had moeten gebruiken. Dit kostte ons bijna 4x meer dan nodig was.
Als je een startup runt, kun je architectuurkeuzes niet maken op basis van een gevoel. Je moet ze maken op basis van ROI.
De fout is simpel. Ik dacht dat grotere modellen altijd beter waren. Ik zat ernaast.
Dit is hoe ik nu de LLM-kosten beheer:
- Classificeer de complexiteit van taken
- Gebruik kleinere modellen voor eenvoudige classificatie of extractie.
- Gebruik grotere modellen alleen voor redeneringen in meerdere stappen.
- Schat het tokenvolume in
- Bekijk je logs.
- Projecteer je groei.
- Doe de berekeningen voordat je deployt.
- Meet met echte evaluaties
- Vertrouw niet op je onderbuikgevoel.
- Draai testsets door beide modellen.
- Vergelijk metrieken die belangrijk zijn voor je product.
Voor 70% van mijn taken is Mistral Medium voldoende. Het handelt de classificatie van supporttickets perfect af. Het kost een derde van wat Large rekent. Ik reserveer Large voor complexe redeneertaken op hoog niveau.
Ik vermijd ook vendor lock-in. Ik gebruik een uniform endpoint om toegang te krijgen tot veel modellen. Als één provider de prijzen verhoogt, schakel ik binnen enkele minuten over naar andere modellen. Dit beschermt mijn runway.
Mijn advies voor CTO's:
- Cache agressief om de kosten te verlagen.
- Stream responses om de gebruikerservaring te verbeteren.
- Bouw fallback-logica zodat je systeem online blijft.
- Kies het model voordat je de prompt optimaliseert.
- Controleer de vereisten voor het contextvenster voor elke taak.
Stop met het gebruiken van een moker voor taken waar een kleine hamer voor nodig is. Efficiëntie creëert concurrentievoordelen. Het stelt je in staat om betere functies en lagere prijzen aan je gebruikers aan te bieden.
Bron: https://dev.to/gentlenode/mistral-large-vs-mistral-medium-cto-notes-from-production-280f