𝗛𝗼𝘄 𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗠𝘆 𝗔𝗜 𝗙𝗲𝗮𝘁𝘂𝗿𝗲 𝗳𝗿𝗼𝗺 𝗗𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝘆 𝗪𝗮𝗹𝗹𝗲𝘁
मैंने अपने साइड प्रोजेक्ट में एक AI चैटबॉट जोड़ा। मुझे लगा था कि यह सरल होगा।
मैं गलत था।
दो हफ्तों के बाद, मेरा OpenAI बिल एक ही हफ्ते के लिए $87 तक पहुँच गया। मेरे पास केवल 50 यूजर्स थे। मैं एक हॉबी प्रोजेक्ट पर पैसे गंवा रहा था।
मैंने लागत को ठीक करने के लिए कई तरीके आजमाए। कुछ विफल रहे।
- रेट लिमिटिंग (Rate limiting): मैंने रिक्वेस्ट्स की सीमा तय कर दी। यूजर्स को यह पसंद नहीं आया और वे चले गए।
- कॉन्टेक्स्ट को छोटा करना (Truncating context): मैंने टोकन बचाने के लिए डेटा कम कर दिया। जवाब गलत होने लगे।
- सिंपल कैशिंग (Simple caching): मैंने बिल्कुल सटीक सवालों को कैश किया। यूजर्स शायद ही कभी एक ही बात दोबारा बिल्कुल वैसे ही पूछते हैं, इसलिए यह विफल रहा।
मुझे एहसास हुआ कि समस्या दोहराव वाले काम (redundant work) की थी। LLM बार-बार एक ही विचारों को प्रोसेस कर रहा था।
मैंने इसे तीन चरणों में ठीक किया:
सिमेंटिक कैशिंग (Semantic Caching) मैंने शब्दों के सटीक मिलान की तलाश करना बंद कर दिया। मैंने मिलते-जुलते सवालों को खोजने के लिए embeddings का उपयोग करना शुरू किया। यदि कोई नया सवाल पुराने सवाल से 92% मिलता-जुलता है, तो मैं कैश किया हुआ जवाब दे देता हूँ। यह हिट रेट 40% तक पहुँच गया और मेरी लागत आधी हो गई।
स्मार्ट मॉडल रूटिंग (Smart Model Routing) मैंने हर चीज़ के लिए GPT-4 का उपयोग करना बंद कर दिया। मैंने एक राउटर बनाया। यदि सवाल छोटा और सरल है, तो मैं एक सस्ते प्रोवाइडर का उपयोग करता हूँ। यदि सवाल जटिल है, तो मैं उसे प्रीमियम मॉडल पर भेज देता हूँ। अधिकांश सवालों के लिए हाई-एंड मॉडल की आवश्यकता नहीं होती है।
प्रॉम्प्ट ट्रिमिंग (Prompt Trimming) मैंने मॉडल को भेजे जाने वाले कॉन्टेक्स्ट की मात्रा कम कर दी। मैंने केवल सबसे प्रासंगिक डेटा चंक्स (data chunks) चुनकर कॉन्टेक्स्ट के आकार को 60% तक कम कर दिया।
परिणाम:
- साप्ताहिक लागत $40 से घटकर $7 रह गई।
- कैश की वजह से रिस्पॉन्स टाइम तेज़ हो गया।
- यूजर संतुष्टि बनी रही।
सीखे गए सबक:
- पहले दिन से ही एक सिमेंटिक कैश बनाएं।
- अपने क्लाउड अकाउंट पर तुरंत कॉस्ट अलर्ट का उपयोग करें।
- साधारण FAQ कार्यों के लिए महंगे मॉडल्स का उपयोग न करें।
AI जोड़ना केवल प्रॉम्प्ट्स के बारे में नहीं है। यह अर्थशास्त्र (economics) के बारे में है। हर API कॉल की वास्तविक लागत होती है। यदि आप दक्षता (efficiency) के लिए डिज़ाइन नहीं करते हैं, तो आपका प्रोजेक्ट विफल हो जाएगा।
आप अपनी AI लागत को कैसे प्रबंधित करते हैं?
Source: https://dev.to/__c1b9e06dc90a7e0a676b/how-i-stopped-my-ai-feature-from-draining-my-wallet-20il