મેં p99 SLAs જાળવી રાખીને અમારા AI API બિલને અડધું કેવી રીતે ઘટાડ્યું
અમારું AI બિલ ખૂબ ઝડપથી વધી રહ્યું હતું. મારા CFO એ તેને અસહ્ય બર્ન રેટ (unsustainable burn rate) કહ્યો હતો. તે સમયે, અમે દરેક કામ માટે GPT-4o નો ઉપયોગ કરતા હતા. તે કામ તો કરતું હતું, પરંતુ ખર્ચ ખૂબ વધારે હતો અને p99 લેટન્સી (latency) અસ્થિર હતી.
મેં AI મોડેલની પસંદગીને સિસ્ટમ ડિઝાઇન સમસ્યા તરીકે જોવાનો નિર્ણય કર્યો. મેં માત્ર 'શ્રેષ્ઠ મોડેલ' શોધવાનું બંધ કર્યું અને અમારા ચોક્કસ SLAs માટે 'શ્રેષ્ઠ મોડેલ' શોધવાનું શરૂ કર્યું.
મેં પહેલા સ્પષ્ટ લક્ષ્યો નક્કી કર્યા: • ચેટ માટે 1.5 સેકન્ડથી ઓછી p99 લેટન્સી • 99.9% ઉપલબ્ધતા (availability) • મલ્ટી-રીજન ફેલોવર (Multi-region failover) • પીક લોડના 3x થ્રુપુટ ક્ષમતા (Throughput capacity)
એકવાર મારી પાસે આ આંકડા આવી ગયા, પછી ઉકેલ સ્પષ્ટ થઈ ગયો. પ્રતિ ટોકન સૌથી સસ્તું મોડેલ હંમેશા પ્રોડક્શન માટે શ્રેષ્ઠ પસંદગી હોતું નથી. જો સસ્તું મોડેલ તમારી લેટન્સી બમણી કરી દે, તો તમે યુઝર્સ ગુમાવી બેસો છો.
મેં ઘણા મોડેલ્સની સરખામણી કરી. કિંમતમાં મોટો તફાવત હતો. GPT-4o ની કિંમત પ્રતિ મિલિયન આઉટપુટ ટોકન્સ માટે $10.00 છે. GLM-4 Plus ની કિંમત $0.80 છે. અમારા ટેસ્ટમાં જાણવા મળ્યું કે સમરાઇઝેશન (summarization) અને એક્સટ્રેક્શન (extraction) જેવા અમારા ચોક્કસ કાર્યો માટે GLM-4 Plus એ લગભગ GPT-4o જેટલું જ સારું પ્રદર્શન કર્યું.
આને મેનેજ કરવા માટે મેં એક રાઉટિંગ લેયર (routing layer) બનાવ્યું. સિસ્ટમ આ નિયમોનું પાલન કરે છે: • વર્કલોડના પ્રકારના આધારે વિનંતીઓ (requests) ને રૂટ કરો • જો લેટન્સી વધે તો ફોલબેક મોડેલનો ઉપયોગ કરો • ટ્રાફિકને વિવિધ રીજન્સમાં ફેલાવો • વારંવાર આવતી વિનંતીઓને કેશ (cache) કરો
મેં Redis કેશ પણ ઉમેર્યું. એક અઠવાડિયામાં આ હિટ રેટ 40% સુધી પહોંચી ગયો. આનાથી રિપીટ ક્વેરીઝ પર અમારો ટોકન ખર્ચ ઘટ્યો અને લેટન્સી 1.4 સેકન્ડથી ઘટીને 200 મિલિસેકન્ડ થઈ ગઈ.
પરિણામો: • માસિક ઇન્ફરન્સ ખર્ચમાં 58% નો ઘટાડો થયો • p99 લેટન્સી 1.6s થી ઘટીને 1.18s થઈ ગઈ • અપટાઇમ 99.95% રહ્યો • કેશ હિટ રેટ 42% થયો
ત્રણ પાઠ જે મેં શીખ્યા:
- તમારું પોતાનું ઇવેલ્યુએશન સૂટ (evaluation suite) બનાવો. સામાન્ય બેન્ચમાર્ક પર વિશ્વાસ ન કરો. તમારા વાસ્તવિક પ્રોડક્શન ડેટાનો ઉપયોગ કરો.
- રેટ લિમિટ્સ (rate limits) પર નજીકથી નજર રાખો. રીજનલ ટ્રાફિક અણધાર્યા વધારા (spikes) લાવી શકે છે.
- કિલ સ્વિચ (kill switch) બનાવો. એક ખરાબ પ્રોમ્પ્ટ ટોકન વપરાશમાં મોટો વધારો કરી શકે છે. મેક્સ ટોકન્સ પરની મર્યાદાએ (cap) અમને એકવાર $14,000 બચાવ્યા હતા.
જો તમારું AI બિલ ખૂબ વધારે હોય, તો પહેલા તમારા SLA વ્યાખ્યાયિત કરો. વાસ્તવિક ટ્રાફિક પરથી ઇવેલ્યુએશન સૂટ બનાવો. ત્યારબાદ, એવા મોડેલ્સની કિંમત તપાસો જેને તમે હાલમાં અવગણી રહ્યા છો.
સ્ત્રોત: https://dev.to/bolddeck/how-i-cut-our-ai-api-bill-in-half-while-hitting-p99-slas-1l05
વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi