LLM के लिए MLOps: Dresscode पर एक केस स्टडी
प्रूफ ऑफ कॉन्सेप्ट (proof of concept) से एक वास्तविक उत्पाद तक पहुँचना कठिन है।
मैंने Dresscode बनाया है, जो एक AI स्टाइलिस्ट है। यह वार्डरोब को डिजिटाइज़ करने और वास्तविक समय (real-time) के मौसम के आधार पर आउटफिट सुझाने के लिए Gemma 4 का उपयोग करता है।
एक बेहतरीन विचार के लिए केवल एक मॉडल ही काफी नहीं है। इसके लिए MLOps की आवश्यकता होती है।
MLOps आपके AI को सटीक, विश्वसनीय और चलाने में किफायती बनाए रखता है। AI को स्केल करने के लिए मैं जिस 7-चरणों वाले पाइपलाइन का उपयोग करता हूँ, वह यहाँ दी गई है।
डेटा इंजेशन और इंजीनियरिंग (Data Ingestion and Engineering) कच्चा डेटा (Raw data) अव्यवस्थित होता है। Dresscode के लिए, उपयोगकर्ता हाई-रेज़ोल्यूशन (high-res) फ़ोटो अपलोड करते हैं। • इंजेशन (Ingestion): हम API के माध्यम से फ़ोटो को क्लाउड स्टोरेज में ले जाते हैं। • इंजीनियरिंग (Engineering): लागत बचाने और प्रोसेसिंग की गति बढ़ाने के लिए हम 12MB की स्मार्टफोन फ़ोटो को कंप्रेस करते हैं। हम गोपनीयता के लिए मेटाडेटा (metadata) को भी हटा देते हैं। • टेक्स्ट क्लीनिंग (Text Cleaning): प्रॉम्प्ट्स को छोटा और कुशल बनाए रखने के लिए हम वेदर API डेटा को साफ़ करते हैं।
फीचर स्टोर (Feature Store) फीचर्स वे विशिष्ट विवरण होते हैं जिनका उपयोग AI निर्णय लेने के लिए करता है। • इमेज के लिए: हम गणितीय एम्बेडिंग्स (mathematical embeddings/vectors) स्टोर करते हैं। इससे हम एक ही इमेज को दोबारा प्रोसेस करने से बच जाते हैं। • मौसम के लिए: हम कच्चे डेटा को "ठंडा" या "बारिश वाला" जैसी श्रेणियों में बदलते हैं। • लाभ: एक फीचर स्टोर आपको इन विवरणों को फिर से कैलकुलेट करने के बजाय तुरंत प्राप्त करने की सुविधा देता है।
मॉडल ट्रेनिंग और एक्सपेरिमेंटेशन (Model Training and Experimentation) हम Gemma 4 को शुरू से (from scratch) ट्रेन नहीं करते हैं। हम प्रॉम्प्ट इंजीनियरिंग (Prompt Engineering) और मूल्यांकन (evaluation) पर ध्यान केंद्रित करते हैं। • एक्सपेरिमेंटेशन (Experimentation): हम विभिन्न सिस्टम प्रॉम्प्ट्स का परीक्षण करते हैं ताकि यह सुनिश्चित हो सके कि AI साफ़ JSON आउटपुट दे। • CI (Continuous Integration): हम 100 फ़ोटो के "गोल्डन डेटासेट" का उपयोग करते हैं। हर बार जब हम प्रॉम्प्ट बदलते हैं, तो सिस्टम जाँचता है कि क्या सटीकता 95% से ऊपर बनी रहती है।
मॉडल रजिस्ट्री (Model Registry) इसे अपने मॉडल्स के लिए एक ऐप स्टोर की तरह समझें। • हम वर्शन किए गए प्रॉम्प्ट्स और मॉडल कॉन्फ़िगरेशन को स्टोर करते हैं। • यदि कोई नया प्रॉम्प्ट AI को गर्मियों में कोट की सिफारिश करने पर मजबूर करता है, तो हम तुरंत एक स्थिर वर्शन पर जाने के लिए "Rollback" पर क्लिक कर सकते हैं।
निरंतर परिनियोजन और सर्विंग (Continuous Deployment and Serving) इसी तरह आप मॉडल को उपयोगकर्ता तक पहुँचाते हैं। • विजुअल टास्क (Visual Tasks): हम एसिंक्रोनस क्यूज़ (asynchronous queues) का उपयोग करते हैं। उपयोगकर्ता फ़ोटो अपलोड करते हैं, और हम उन्हें बैकग्राउंड में प्रोसेस करते हैं ताकि ऐप तेज़ बना रहे। • टेक्स्ट टास्क (Text Tasks): हम टोकन स्ट्रीमिंग (token streaming) का उपयोग करते हैं। यह आउटफिट सुझाव को शब्द-दर-शब्द दिखाता है ताकि उपयोगकर्ता को लोडिंग स्क्रीन न देखनी पड़े।
निरंतर निगरानी (Continuous Monitoring) समय के साथ AI का प्रदर्शन कम हो सकता है। हम तीन चीज़ों की निगरानी करते हैं: • सिस्टम परफॉरमेंस (System Performance): क्या लेटेंसी (latency) बढ़ रही है? • डेटा ड्रिफ्ट (Data Drift): क्या उपयोगकर्ता नए फोटो फॉर्मेट अपलोड कर रहे हैं जिनकी हमने उम्मीद नहीं की थी? • मॉडल सटीकता (Model Accuracy): क्या AI उन चीज़ों के बारे में hallucinate करने लगा है जो उपयोगकर्ता के पास नहीं हैं?
फीडबैक लूप (The Feedback Loop) सिस्टम को गलतियों से सीखना चाहिए। हम उपयोगकर्ता के सुधारों (corrections) को कैप्चर करते हैं और मॉडल को फिर से ट्रेन करने और बेहतर बनाने के लिए उस डेटा को वापस पहले चरण में भेज देते हैं।
MLOps एक शानदार डेमो को एक पेशेवर टूल में बदल देता है।
Source: https://dev.to/saad4software/mlops-for-llm-a-case-study-on-dresscode-3joj
Optional learning community: https://t.me/GyaanSetuAi
