𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

कल2मिनट पढ़ें

मैंने p99 SLAs को बनाए रखते हुए अपने AI API बिल को आधा कैसे किया

हमारा AI बिल बहुत तेज़ी से बढ़ रहा था। मेरे CFO ने इसे एक 'unsustainable burn rate' कहा। उस समय, हम हर चीज़ के लिए GPT-4o का उपयोग कर रहे थे। यह काम तो कर रहा था, लेकिन लागत बहुत अधिक थी और p99 latency अस्थिर थी।

मैंने AI मॉडल चयन को एक सिस्टम डिज़ाइन समस्या के रूप में देखने का निर्णय लिया। मैंने सबसे अच्छे मॉडल की तलाश करना बंद कर दिया और अपने विशिष्ट SLAs के लिए सबसे अच्छे मॉडल की तलाश शुरू कर दी।

मैंने सबसे पहले स्पष्ट लक्ष्य निर्धारित किए: • चैट के लिए 1.5 सेकंड से कम p99 latency • 99.9% availability • Multi-region failover • 3x peak load की throughput capacity

एक बार जब मेरे पास ये आंकड़े आ गए, तो समाधान स्पष्ट हो गया। प्रति टोकन सबसे सस्ता मॉडल हमेशा प्रोडक्शन के लिए सबसे अच्छा विकल्प नहीं होता है। यदि कोई सस्ता मॉडल आपकी latency को दोगुना कर देता है, तो आप अपने यूजर्स खो देंगे।

मैंने कई मॉडलों की तुलना की। कीमतों में भारी अंतर था। GPT-4o की लागत प्रति मिलियन आउटपुट टोकन $10.00 है। GLM-4 Plus की लागत $0.80 है। हमारे परीक्षणों से पता चला कि summarization और extraction जैसे हमारे विशिष्ट कार्यों के लिए GLM-4 Plus ने लगभग GPT-4o जितना ही अच्छा प्रदर्शन किया।

मैंने इसे प्रबंधित करने के लिए एक routing layer बनाया। सिस्टम इन नियमों का पालन करता है: • वर्कलोड के प्रकार के आधार पर अनुरोधों (requests) को रूट करें • यदि latency बढ़ती है, तो fallback model का उपयोग करें • ट्रैफिक को विभिन्न regions में फैलाएं • बार-बार होने वाले अनुरोधों को cache करें

मैंने एक Redis cache भी जोड़ा। एक सप्ताह में इसकी hit rate 40% तक पहुँच गई। इससे बार-बार होने वाले queries पर हमारा टोकन खर्च कम हो गया और latency 1.4 सेकंड से घटकर 200 मिलीसेकंड रह गई।

परिणाम: • मासिक inference खर्च में 58% की कमी आई • p99 latency 1.6s से घटकर 1.18s हो गई • Uptime 99.95% पर बना रहा • Cache hit rate 42% तक पहुँच गया

तीन सबक जो मैंने सीखे:

अपना खुद का evaluation suite बनाएं। जेनेरिक बेंचमार्क पर भरोसा न करें। अपने वास्तविक प्रोडक्शन डेटा का उपयोग करें।
rate limits पर बारीकी से नज़र रखें। क्षेत्रीय ट्रैफिक (Regional traffic) से अप्रत्याशित उछाल आ सकता है।
एक kill switch बनाएं। एक खराब प्रॉम्प्ट टोकन उपयोग में भारी उछाल ला सकता है। मैक्स टोकन पर एक कैप (cap) ने एक बार हमारे $14,000 बचाए।

यदि आपका AI बिल बहुत अधिक है, तो पहले अपना SLA परिभाषित करें। वास्तविक ट्रैफिक से एक evaluation suite बनाएं। फिर, उन मॉडलों की कीमत देखें जिन्हें आप वर्तमान में अनदेखा कर रहे हैं।

स्रोत: https://dev.to/bolddeck/how-i-cut-our-ai-api-bill-in-half-while-hitting-p99-slas-1l05

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

पढ़ना जारी रखें

मैंने अपने AI API खर्चों में 70% की कटौती की

इस RAG सेटअप के साथ मैंने अपने AI खर्चों में 60% की कटौती कैसे की

मैंने अपने AI फीचर को अपना पैसा खत्म करने से कैसे रोका

मैंने एक ही वीकेंड में अपने AI एजेंट का टोकन बिल 62% कम कर दिया

अपने AI बिल को कम करने के 7 तरीके