મેં મારા AI API ખર્ચમાં 70% નો ઘટાડો કર્યો

મારું OpenAI બિલ $30 થી વધીને $150 થઈ ગયું. આનું કારણ એક નાનકડો Slack bot હતો. વારંવારના prompts અને retries ને કારણે ઘણો ખર્ચ થયો.

મેં સાદા ઉપાયો અજમાવ્યા. મેં બેઝિક caching નો ઉપયોગ કર્યો. મેં models બદલ્યા. પણ કંઈ કામ આવ્યું નહીં. વપરાશકર્તાઓ પ્રશ્નોને અલગ રીતે પૂછે છે. જ્યારે શબ્દો બદલાય છે ત્યારે બેઝિક caching નિષ્ફળ જાય છે.

મેં એક AI proxy બનાવ્યો. તે મારી app અને API ની વચ્ચે કામ કરે છે. તે ત્રણ વસ્તુઓ કરે છે:

  • Semantic caching. સમાન પ્રશ્નો શોધવા માટે હું embeddings નો ઉપયોગ કરું છું. જો મેચ (match) વધારે હોય, તો હું cached જવાબ આપું છું.
  • Rate limiting. request bursts રોકવા માટે હું Redis નો ઉપયોગ કરું છું.
  • Retry buffers. Proxy આપમેળે નિષ્ફળ calls ને ફરીથી પ્રયાસ (retry) કરે છે.

આનાથી મારો ખર્ચ 70% ઘટી ગયો.

તેના કેટલાક trade-offs છે:

  • Latency. તે દરેક request માં 200ms ઉમેરે છે.
  • Memory. vectors માટે Redis ને જગ્યાની જરૂર પડે છે.
  • Accuracy. કેટલાક સમાન prompts માટે અલગ જવાબોની જરૂર હોય છે.

તમારા માટે શીખવા જેવી બાબતો:

  • LiteLLM જેવા open source tools થી શરૂઆત કરો.
  • પહેલા દિવસથી જ તમારા ડેટાને ટ્રેક કરો.
  • વધુ traffic માટે message queues નો ઉપયોગ કરો.

AI APIs ને black boxes તરીકે જોવાનું બંધ કરો. તે HTTP endpoints છે. તેમને નિયંત્રિત કરવા માટે middleware નો ઉપયોગ કરો.

તમારું setup શું છે? તમે કોઈ service નો ઉપયોગ કરો છો કે તમારું પોતાનું બનાવો છો?

Source: https://dev.to/__c1b9e06dc90a7e0a676b/i-built-a-simple-ai-proxy-to-cut-api-costs-heres-what-i-learned-3hcf