अपने बजट को बिगाड़े बिना LLMs का उपयोग कैसे करें

एक AI डेमो बनाना आसान है। आप एक API key प्राप्त करते हैं, एक प्रॉम्प्ट लिखते हैं, और यह काम करने लगता है।

लेकिन इसे वास्तविक उपयोगकर्ताओं तक पहुँचाना अलग बात है। ट्रैफिक आता है और आपकी लागत बढ़ जाती है। आपकी लेटेंसी (latency) बढ़ जाती है। आपकी फाइनेंस टीम सवाल पूछने लगती है।

एक डेमो और एक वास्तविक उत्पाद के बीच का अंतर इंजीनियरिंग है। आपको लागत और गति का प्रबंधन करना होगा।

पैसे बचाने के लिए अपने आउटपुट को नियंत्रित करें

अधिकांश APIs प्रति टोकन शुल्क लेती हैं। वे उस चीज़ के लिए शुल्क लेते हैं जो आप भेजते हैं और जो वे वापस भेजते हैं। आउटपुट टोकन, इनपुट टोकन की तुलना में अधिक महंगे होते हैं।

केवल अपने प्रॉम्प्ट्स को छोटा न करें। उत्तर पर ध्यान केंद्रित करें। • JSON मांगें। • एक वाक्य मांगें। • अधिकतम टोकन सीमा (max token limit) निर्धारित करें। • मॉडल को संक्षिप्त रहने के लिए कहें।

छोटे उत्तर सस्ते और तेज़ होते हैं।

कॉल्स (calls) की संख्या कम करें

सबसे सस्ता कॉल वह है जो आप कभी करते ही नहीं हैं।

  • कैशिंग (caching) का उपयोग करें। कई उपयोगकर्ता एक ही प्रश्न पूछते हैं। कैशिंग एक धीमी API कॉल को तेज़ लुकअप (lookup) में बदल देती है।
  • राउटर (router) का उपयोग करें। आपको हर काम के लिए एक विशाल मॉडल की आवश्यकता नहीं है। आसान काम के लिए एक छोटे, सस्ते मॉडल का उपयोग करें। महंगे मॉडल का उपयोग केवल कठिन कार्यों के लिए करें।

उपयोगकर्ता अनुभव (user experience) में सुधार करें

कभी-कभी आप मॉडल को तेज़ नहीं बना सकते। आप इसे तेज़ महसूस करा सकते हैं।

  • रिस्पॉन्स स्ट्रीम (Stream responses) करें। जैसे-जैसे टेक्स्ट जनरेट हो, उसे दिखाते रहें। उपयोगकर्ता तुरंत पढ़ना शुरू कर देते हैं। इससे इंतज़ार कम महसूस होता है।
  • प्रगति (progress) दिखाएं। यदि काम में कई चरण हैं, तो उपयोगकर्ता को बताएं। एक खाली लोडिंग स्पिनर के बजाय "Searching documents..." जैसे संदेशों का उपयोग करें।

धीमी रिक्वेस्ट (requests) का प्रबंधन करें

कुछ बहुत धीमी रिक्वेस्ट आपके उत्पाद को खराब कर सकती हैं। उन्हें लटकने (hang) न दें।

  • सख्त टाइमआउट (timeouts) सेट करें। तय करें कि यदि किसी रिक्वेस्ट में बहुत अधिक समय लगता है तो क्या होगा।
  • सीमाओं के साथ रिट्राइ (retries) का उपयोग करें। हमेशा के लिए रिट्राइ न करें।
  • सर्किट ब्रेकर्स (circuit breakers) का उपयोग करें। यदि प्रोवाइडर डाउन है, तो रिक्वेस्ट भेजना बंद कर दें और एक फॉलबैक (fallback) दिखाएं।

अपने डेटा को ट्रैक करें

आप उसे ठीक नहीं कर सकते जिसे आप मापते नहीं हैं। प्रत्येक रिक्वेस्ट के लिए इन तीन चीज़ों को लॉग (log) करें: • इनपुट टोकन • आउटपुट टोकन • कुल लेटेंसी (total latency)

इन्हें फीचर के अनुसार ट्रैक करें। आपको संभवतः एक विशिष्ट फीचर मिलेगा जो आपकी अधिकांश लागत का कारण बनता है।

मॉडल को जादू समझना बंद करें। इसे एक धीमी, महंगी निर्भरता (dependency) के रूप में मानें जिसका आपको प्रबंधन करना होगा।

स्रोत: https://dev.to/muhammadzainnaseer/how-to-put-an-llm-in-your-product-without-wrecking-your-costs-or-your-latency-89a