अपने प्रोडक्ट में लागत या लेटेंसी को बढ़ाए बिना LLM को कैसे जोड़ें
एक AI डेमो बनाना आसान है। आप एक API key लेते हैं, एक प्रॉम्प्ट लिखते हैं, और उसे अपनी टीम को दिखाते हैं।
फिर आप इसे लॉन्च करते हैं। ट्रैफिक आने लगता है। आपकी लागत बढ़ जाती है और लेटेंसी में उछाल आ जाता है।
डेमो से वास्तविक प्रोडक्ट तक पहुँचने के लिए कॉस्ट और लेटेंसी इंजीनियरिंग की आवश्यकता होती है। यहाँ बताया गया है कि आप इसे कैसे कर सकते हैं।
अपने आउटपुट को नियंत्रित करें
अधिकांश APIs टोकन के आधार पर शुल्क लेते हैं। आउटपुट टोकन, इनपुट टोकन की तुलना में अधिक महंगे होते हैं।
लोग प्रॉम्प्ट को छोटा करने में समय बिताते हैं लेकिन मॉडल को बिना वजह लंबा बोलने देते हैं। यह एक गलती है।
पैसा और समय बचाने के लिए, आउटपुट को सीमित करें:
- JSON मांगें।
- केवल एक वाक्य का अनुरोध करें।
max_tokensकी सीमा निर्धारित करें।- मॉडल को संक्षिप्त रहने के लिए कहें।
छोटे उत्तर तेज़ और सस्ते होते हैं।
अनावश्यक कॉल्स करना बंद करें
बचत करने का सबसे अच्छा तरीका मॉडल को कॉल ही न करना है।
- कैशिंग (caching) का उपयोग करें: सामान्य प्रश्नों के उत्तरों को स्टोर करें। यदि प्रश्न समान हैं लेकिन बिल्कुल एक जैसे नहीं हैं, तो एक सिमेंटिक कैश (semantic cache) मदद कर सकता है।
- रूटिंग (routing) का उपयोग करें: सरल कार्यों के लिए अपने सबसे अच्छे मॉडल का उपयोग न करें। वर्गीकरण (classification) के लिए एक छोटे और सस्ते मॉडल का उपयोग करें। महंगे मॉडल को जटिल कार्यों के लिए बचाकर रखें।
यूजर एक्सपीरियंस में सुधार करें
यदि किसी उत्तर में समय लगता है, तो उसे तेज़ महसूस कराएं।
- टोकन स्ट्रीम करें: जैसे-जैसे शब्द जेनरेट हों, उन्हें दिखाते रहें। इससे प्रतीक्षा का आभास कम हो जाता है।
- प्रोग्रेस दिखाएं: यदि कार्य के कई चरण हैं, तो यूजर को बताएं कि क्या हो रहा है। एक शांत स्पिनर (spinner) के बजाय "Searching documents..." जैसे टेक्स्ट का उपयोग करें।
"टेल" (tail) लेटेंसी को मैनेज करें
कुछ रिक्वेस्ट हमेशा धीमी होंगी। उन्हें अपने प्रोडक्ट को खराब न करने दें।
- टाइमआउट (timeouts) सेट करें: यदि कोई रिक्वेस्ट अटक जाती है, तो क्या होगा यह तय करें। फॉलबैक (fallback) या किसी छोटे मॉडल का उपयोग करें।
- रिट्राइज़ (retries) का उपयोग करें: छोटी गलतियों के लिए रिट्राइज़ जोड़ें, लेकिन उनकी एक सीमा तय करें।
- सर्किट ब्रेकर्स (circuit breakers) का उपयोग करें: यदि कोई प्रोवाइडर डाउन हो जाता है, तो लंबे इंतज़ार से बचने के लिए तुरंत रिक्वेस्ट भेजना बंद कर दें।
अपने डेटा को ट्रैक करें
आप उसे ठीक नहीं कर सकते जिसे आप माप नहीं सकते। हर रिक्वेस्ट के लिए इन तीन नंबरों को लॉग करें:
- इनपुट टोकन।
- आउटपुट टोकन।
- कुल लेटेंसी।
सफल यूजर आउटकम (user outcome) की प्रति लागत देखें। एक ऐसा फीचर जो काम करता है, वह एक ऐसे सस्ते फीचर से बेहतर है जो विफल हो जाता है।
LLM को जादू समझना बंद करें। इसे एक धीमी और महंगी डिपेंडेंसी (dependency) के रूप में मानें जिसे आपको मैनेज करना होगा।
Optional learning community: https://t.me/GyaanSetuAi
