నేను నా AI API ఖర్చులను 70% తగ్గించాను

నా OpenAI బిల్లు $30 నుండి $150కి పెరిగింది. ఒక చిన్న Slack bot వల్ల ఇది జరిగింది. పదేపదే ప్రాంప్ట్‌లు మరియు రీట్రైలు వల్ల ఖర్చు చాలా పెరిగిపోయింది.

నేను కొన్ని సాధారణ పరిష్కారాలను ప్రయత్నించాను. బేసిక్ క్యాషింగ్ (basic caching) ఉపయోగించాను. మోడల్స్‌ను మార్చాను. కానీ ఏదీ పని చేయలేదు. వినియోగదారులు ప్రశ్నలను వేర్వేరు పదాలతో అడుగుతున్నారు. పదాలు మారినప్పుడు బేసిక్ క్యాషింగ్ విఫలమవుతుంది.

నేను ఒక AI proxyని నిర్మించాను. ఇది నా యాప్ మరియు API మధ్యలో ఉంటుంది. ఇది మూడు పనులు చేస్తుంది:

  • Semantic caching. సారూప్యమైన ప్రశ్నలను కనుగొనడానికి నేను embeddings ఉపయోగిస్తాను. మ్యాచ్ ఎక్కువగా ఉంటే, నేను క్యాష్ చేసిన సమాధానాన్ని అందిస్తాను.
  • Rate limiting. రిక్వెస్ట్ బరస్ట్స్ (request bursts) ని అరికట్టడానికి నేను Redis ఉపయోగిస్తాను.
  • Retry buffers. ఫెయిల్ అయిన కాల్స్‌ను ఈ proxy ఆటోమేటిక్‌గా రీట్రై చేస్తుంది.

దీనివల్ల నా ఖర్చులు 70% తగ్గాయి.

ఇందులో కొన్ని లాభనష్టాలు (trade-offs) ఉన్నాయి:

  • Latency. ఇది ప్రతి రిక్వెస్ట్‌కు 200ms అదనంగా తీసుకుంటుంది.
  • Memory. వెక్టర్స్ (vectors) కోసం Redisకి స్పేస్ అవసరం.
  • Accuracy. కొన్ని సారూప్య ప్రాంప్ట్‌లకు వేర్వేరు సమాధానాలు అవసరం కావచ్చు.

మీ కోసం కొన్ని పాఠాలు:

  • LiteLLM వంటి ఓపెన్ సోర్స్ టూల్స్‌తో ప్రారంభించండి.
  • మొదటి రోజు నుండే మీ డేటాను ట్రాక్ చేయండి.
  • ఎక్కువ ట్రాఫిక్ ఉన్నప్పుడు message queues ఉపయోగించండి.

AI APIలను బ్లాక్ బాక్స్‌లుగా (black boxes) చూడటం ఆపండి. అవి HTTP endpoints మాత్రమే. వాటిని నియంత్రించడానికి middleware ఉపయోగించండి.

మీ సెటప్ ఏమిటి? మీరు ఏదైనా సర్వీస్‌ను ఉపయోగిస్తున్నారా లేదా మీ స్వంతంగా నిర్మించుకుంటున్నారా?

Source: https://dev.to/__c1b9e06dc90a7e0a676b/i-built-a-simple-ai-proxy-to-cut-api-costs-heres-what-i-learned-3hcf