मैंने p99 SLAs को बनाए रखते हुए अपने AI API बिल को आधा कैसे किया

हमारा AI बिल बहुत तेज़ी से बढ़ रहा था। मेरे CFO ने इसे एक 'unsustainable burn rate' कहा। उस समय, हम हर चीज़ के लिए GPT-4o का उपयोग कर रहे थे। यह काम तो कर रहा था, लेकिन लागत बहुत अधिक थी और p99 latency अस्थिर थी।

मैंने AI मॉडल चयन को एक सिस्टम डिज़ाइन समस्या के रूप में देखने का निर्णय लिया। मैंने सबसे अच्छे मॉडल की तलाश करना बंद कर दिया और अपने विशिष्ट SLAs के लिए सबसे अच्छे मॉडल की तलाश शुरू कर दी।

मैंने सबसे पहले स्पष्ट लक्ष्य निर्धारित किए: • चैट के लिए 1.5 सेकंड से कम p99 latency • 99.9% availability • Multi-region failover • 3x peak load की throughput capacity

एक बार जब मेरे पास ये आंकड़े आ गए, तो समाधान स्पष्ट हो गया। प्रति टोकन सबसे सस्ता मॉडल हमेशा प्रोडक्शन के लिए सबसे अच्छा विकल्प नहीं होता है। यदि कोई सस्ता मॉडल आपकी latency को दोगुना कर देता है, तो आप अपने यूजर्स खो देंगे।

मैंने कई मॉडलों की तुलना की। कीमतों में भारी अंतर था। GPT-4o की लागत प्रति मिलियन आउटपुट टोकन $10.00 है। GLM-4 Plus की लागत $0.80 है। हमारे परीक्षणों से पता चला कि summarization और extraction जैसे हमारे विशिष्ट कार्यों के लिए GLM-4 Plus ने लगभग GPT-4o जितना ही अच्छा प्रदर्शन किया।

मैंने इसे प्रबंधित करने के लिए एक routing layer बनाया। सिस्टम इन नियमों का पालन करता है: • वर्कलोड के प्रकार के आधार पर अनुरोधों (requests) को रूट करें • यदि latency बढ़ती है, तो fallback model का उपयोग करें • ट्रैफिक को विभिन्न regions में फैलाएं • बार-बार होने वाले अनुरोधों को cache करें

मैंने एक Redis cache भी जोड़ा। एक सप्ताह में इसकी hit rate 40% तक पहुँच गई। इससे बार-बार होने वाले queries पर हमारा टोकन खर्च कम हो गया और latency 1.4 सेकंड से घटकर 200 मिलीसेकंड रह गई।

परिणाम: • मासिक inference खर्च में 58% की कमी आई • p99 latency 1.6s से घटकर 1.18s हो गई • Uptime 99.95% पर बना रहा • Cache hit rate 42% तक पहुँच गया

तीन सबक जो मैंने सीखे:

  1. अपना खुद का evaluation suite बनाएं। जेनेरिक बेंचमार्क पर भरोसा न करें। अपने वास्तविक प्रोडक्शन डेटा का उपयोग करें।
  2. rate limits पर बारीकी से नज़र रखें। क्षेत्रीय ट्रैफिक (Regional traffic) से अप्रत्याशित उछाल आ सकता है।
  3. एक kill switch बनाएं। एक खराब प्रॉम्प्ट टोकन उपयोग में भारी उछाल ला सकता है। मैक्स टोकन पर एक कैप (cap) ने एक बार हमारे $14,000 बचाए।

यदि आपका AI बिल बहुत अधिक है, तो पहले अपना SLA परिभाषित करें। वास्तविक ट्रैफिक से एक evaluation suite बनाएं। फिर, उन मॉडलों की कीमत देखें जिन्हें आप वर्तमान में अनदेखा कर रहे हैं।

स्रोत: https://dev.to/bolddeck/how-i-cut-our-ai-api-bill-in-half-while-hitting-p99-slas-1l05

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi