मैंने अपने AI API खर्चों को 70% तक कम कर दिया

मेरा OpenAI बिल $30 से बढ़कर $150 हो गया। इसका कारण एक छोटा सा Slack bot था। बार-बार होने वाले prompts और retries की वजह से बहुत अधिक खर्च हो रहा था।

मैंने साधारण समाधानों की कोशिश की। मैंने बेसिक caching का उपयोग किया। मैंने models बदले। कुछ भी काम नहीं आया। यूजर्स सवालों को अलग तरीके से पूछते हैं। जब शब्द बदल जाते हैं, तो बेसिक caching विफल हो जाती है।

मैंने एक AI proxy बनाया। यह मेरे app और API के बीच काम करता है। यह तीन काम करता है:

  • Semantic caching. मैं मिलते-जुलते सवालों को खोजने के लिए embeddings का उपयोग करता हूँ। यदि समानता अधिक है, तो मैं cached उत्तर दे देता हूँ।
  • Rate limiting. मैं request bursts को रोकने के लिए Redis का उपयोग करता हूँ।
  • Retry buffers. Proxy विफल calls को अपने आप retry करता है।

इससे मेरे खर्चों में 70% की कमी आई।

इसके कुछ trade-offs भी हैं:

  • Latency. यह प्रति request 200ms बढ़ा देता है।
  • Memory. Redis को vectors के लिए जगह चाहिए होती है।
  • Accuracy. कुछ मिलते-जुलते prompts के लिए अलग उत्तरों की आवश्यकता होती है।

आपके लिए सीख:

  • LiteLLM जैसे open source टूल्स से शुरुआत करें।
  • पहले दिन से ही अपने डेटा को ट्रैक करें।
  • हाई ट्रैफिक के लिए message queues का उपयोग करें।

AI APIs को black boxes की तरह मानना बंद करें। वे HTTP endpoints हैं। उन्हें नियंत्रित करने के लिए middleware का उपयोग करें।

आपका setup क्या है? क्या आप किसी service का उपयोग करते हैं या अपना खुद का बनाते हैं?

Source: https://dev.to/__c1b9e06dc90a7e0a676b/i-built-a-simple-ai-proxy-to-cut-api-costs-heres-what-i-learned-3hcf