𝗠𝗶𝘀𝘁𝗿𝗮𝗹 𝗟𝗮𝗿𝗴𝗲 𝘃𝘀 𝗠𝗶𝘀𝘁𝗿𝗮𝗹 𝗠𝗲𝗱𝗶𝘂𝗺: 𝗡𝗼𝘁𝗮𝘁𝗸𝗶 𝗖𝗧𝗢 𝘇 𝗽𝗿𝗼𝗱𝘂𝗸𝗰𝗷𝗶
Trzy miesiące temu wdrożyłem funkcję opartą na LLM. Potem przyszedł rachunek.
Zdałem sobie sprawę, że popełniłem błąd. Użyłem Mistral Large, podczas gdy powinienem był użyć Mistral Medium. Kosztowało nas to prawie 4 razy więcej, niż było to konieczne.
Jeśli prowadzisz startup, nie możesz podejmować decyzji architektonicznych na podstawie „przeczucia”. Musisz opierać je na ROI.
Błąd był prosty. Myślałem, że większe modele są zawsze lepsze. Myliłem się.
Oto jak obecnie zarządzam kosztami LLM:
- Klasyfikuj złożoność zadań
- Używaj mniejszych modeli do prostej klasyfikacji lub ekstrakcji danych.
- Używaj większych modeli tylko do wieloetapowego rozumowania.
- Szacuj wolumen tokenów
- Przejrzyj swoje logi.
- Przewiduj swój wzrost.
- Zrób obliczenia przed wdrożeniem.
- Mierz za pomocą rzeczywistych ewaluacji
- Nie ufaj intuicji.
- Przeprowadź testy na obu modelach przy użyciu zestawów testowych.
- Porównuj metryki, które mają znaczenie dla Twojego produktu.
W 70% moich zadań Mistral Medium jest wystarczający. Idealnie radzi sobie z klasyfikacją zgłoszeń wsparcia. Kosztuje jedną trzecią tego, co Large. Mistral Large rezerwuję dla zadań wymagających zaawansowanego rozumowania.
Unikam również uzależnienia od dostawcy (vendor lock-in). Używam ujednoliconego punktu końcowego (endpoint), aby uzyskać dostęp do wielu modeli. Jeśli jeden dostawca podniesie ceny, mogę zmienić model w kilka minut. To chroni mój runway.
Moja rada dla CTO:
- Agresywnie stosuj cache, aby obniżyć rachunki.
- Stosuj streaming odpowiedzi, aby poprawić doświadczenie użytkownika.
- Buduj logikę fallback, aby Twój system pozostał online.
- Wybierz model, zanim zaczniesz optymalizować prompt.
- Sprawdzaj wymagania dotyczące okna kontekstowego dla każdego zadania.
Przestań używać wielkiego młota do zadań, które wymagają małego młotka. Wydajność tworzy przewagę konkurencyjną. Pozwala ona oferować użytkownikom lepsze funkcje i niższe ceny.
Źródło: https://dev.to/gentlenode/mistral-large-vs-mistral-medium-cto-notes-from-production-280f