MLOps dla LLM: Studium przypadku Dresscode
Przejście od dowodu koncepcji do realnego produktu jest trudne.
Stworzyłem Dresscode, stylistę AI. Wykorzystuje on Gemma 4 do cyfryzacji garderoby i sugerowania stylizacji na podstawie pogody w czasie rzeczywistym.
Świetny pomysł potrzebuje czegoś więcej niż tylko modelu. Potrzebuje MLOps.
MLOps sprawia, że Twoje AI jest dokładne, niezawodne i tanie w utrzymaniu. Oto 7-etapowy proces (pipeline), którego używam do skalowania AI.
Pozyskiwanie i inżynieria danych Surowe dane są nieuporządkowane. W przypadku Dresscode użytkownicy przesyłają zdjęcia w wysokiej rozdzielczości. • Pozyskiwanie (Ingestion): Przenosimy zdjęcia do pamięci masowej w chmurze za pomocą API. • Inżynieria: Kompresujemy 12 MB zdjęcia ze smartfonów, aby obniżyć koszty i przyspieszyć przetwarzanie. Usuwamy również metadane w celu ochrony prywatności. • Czyszczenie tekstu: Czyścimy dane z API pogodowego, aby prompty były krótkie i wydajne.
Feature Store (Magazyn cech) Cechy (features) to konkretne szczegóły, których AI używa do podejmowania decyzji. • Dla obrazów: Przechowujemy matematyczne osadzenia (embeddings/wektory). Zapobiega to ponownemu przetwarzaniu tego samego obrazu. • Dla pogody: Konwertujemy surowe dane na kategorie, takie jak „chłodno” lub „deszczowo”. • Korzyść: Feature Store pozwala na natychmiastowe pobranie tych szczegółów zamiast ich ponownego przeliczania.
Trenowanie modelu i eksperymentowanie Nie trenujemy Gemma 4 od zera. Skupiamy się na inżynierii promptów (Prompt Engineering) i ewaluacji. • Eksperymentowanie: Testujemy różne prompty systemowe, aby upewnić się, że AI generuje czysty format JSON. • CI (Continuous Integration): Używamy „Złotego Zbioru Danych” (Golden Dataset) składającego się ze 100 zdjęć. Za każdym razem, gdy zmieniamy prompt, system sprawdza, czy dokładność utrzymuje się powyżej 95%.
Model Registry (Rejestr modeli) Potraktuj to jak sklep z aplikacjami dla Twoich modeli. • Przechowujemy wersjonowane prompty i konfiguracje modeli. • Jeśli nowy prompt sprawi, że AI zacznie polecać płaszcz w lecie, możemy kliknąć „Rollback”, aby natychmiast wrócić do stabilnej wersji.
Ciągłe wdrażanie i serwowanie (Continuous Deployment and Serving) W ten sposób dostarczasz model użytkownikowi. • Zadania wizualne: Używamy kolejek asynchronicznych. Użytkownicy przesyłają zdjęcia, a my przetwarzamy je w tle, dzięki czemu aplikacja działa szybko. • Zadania tekstowe: Używamy strumieniowania tokenów (token streaming). Dzięki temu sugestia stylizacji pojawia się słowo po słowie, więc użytkownik nie musi patrzeć na ekran ładowania.
Ciągłe monitorowanie Skuteczność AI może spadać wraz z upływem czasu. Monitorujemy trzy rzeczy: • Wydajność systemu: Czy opóźnienia (latency) rosną? • Data Drift (dryft danych): Czy użytkownicy przesyłają nowe formaty zdjęć, których się nie spodziewaliśmy? • Dokładność modelu: Czy AI zaczyna halucynować przedmioty, których użytkownik nie posiada?
Pętla zwrotna (Feedback Loop) System musi uczyć się na błędach. Rejestrujemy poprawki użytkowników i przekazujemy te dane z powrotem do pierwszego kroku, aby dotrenować i ulepszyć model.
MLOps zmienia fajne demo w profesjonalne narzędzie.
Source: https://dev.to/saad4software/mlops-for-llm-a-case-study-on-dresscode-3joj
Optional learning community: https://t.me/GyaanSetuAi
