मैंने अपने AI API खर्चों में 70% की कटौती की

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

2 सप्ताह पहले1मिनट पढ़ें

मैंने अपने AI API खर्चों को 70% तक कम कर दिया

मेरा OpenAI बिल $30 से बढ़कर $150 हो गया। इसका कारण एक छोटा सा Slack bot था। बार-बार होने वाले prompts और retries की वजह से बहुत अधिक खर्च हो रहा था।

मैंने साधारण समाधानों की कोशिश की। मैंने बेसिक caching का उपयोग किया। मैंने models बदले। कुछ भी काम नहीं आया। यूजर्स सवालों को अलग तरीके से पूछते हैं। जब शब्द बदल जाते हैं, तो बेसिक caching विफल हो जाती है।

मैंने एक AI proxy बनाया। यह मेरे app और API के बीच काम करता है। यह तीन काम करता है:

Semantic caching. मैं मिलते-जुलते सवालों को खोजने के लिए embeddings का उपयोग करता हूँ। यदि समानता अधिक है, तो मैं cached उत्तर दे देता हूँ।
Rate limiting. मैं request bursts को रोकने के लिए Redis का उपयोग करता हूँ।
Retry buffers. Proxy विफल calls को अपने आप retry करता है।

इससे मेरे खर्चों में 70% की कमी आई।

इसके कुछ trade-offs भी हैं:

Latency. यह प्रति request 200ms बढ़ा देता है।
Memory. Redis को vectors के लिए जगह चाहिए होती है।
Accuracy. कुछ मिलते-जुलते prompts के लिए अलग उत्तरों की आवश्यकता होती है।

आपके लिए सीख:

LiteLLM जैसे open source टूल्स से शुरुआत करें।
पहले दिन से ही अपने डेटा को ट्रैक करें।
हाई ट्रैफिक के लिए message queues का उपयोग करें।

AI APIs को black boxes की तरह मानना बंद करें। वे HTTP endpoints हैं। उन्हें नियंत्रित करने के लिए middleware का उपयोग करें।

आपका setup क्या है? क्या आप किसी service का उपयोग करते हैं या अपना खुद का बनाते हैं?

Source: https://dev.to/__c1b9e06dc90a7e0a676b/i-built-a-simple-ai-proxy-to-cut-api-costs-heres-what-i-learned-3hcf

मैंने अपने AI API खर्चों में 70% की कटौती की

पढ़ना जारी रखें

AI APIs पर पैसा बर्बाद करना बंद करें

इस RAG सेटअप के साथ मैंने अपने AI खर्चों में 60% की कटौती कैसे की

मैंने अपने AI फीचर को अपना पैसा खत्म करने से कैसे रोका

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

अपने AI बिल को कम करने के 7 तरीके