𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

Translated for your language. Read the original.

AI-assisted draft.

ગઈકાલે2min read

મેં p99 SLAs જાળવી રાખીને અમારા AI API બિલને અડધું કેવી રીતે ઘટાડ્યું

અમારું AI બિલ ખૂબ ઝડપથી વધી રહ્યું હતું. મારા CFO એ તેને અસહ્ય બર્ન રેટ (unsustainable burn rate) કહ્યો હતો. તે સમયે, અમે દરેક કામ માટે GPT-4o નો ઉપયોગ કરતા હતા. તે કામ તો કરતું હતું, પરંતુ ખર્ચ ખૂબ વધારે હતો અને p99 લેટન્સી (latency) અસ્થિર હતી.

મેં AI મોડેલની પસંદગીને સિસ્ટમ ડિઝાઇન સમસ્યા તરીકે જોવાનો નિર્ણય કર્યો. મેં માત્ર 'શ્રેષ્ઠ મોડેલ' શોધવાનું બંધ કર્યું અને અમારા ચોક્કસ SLAs માટે 'શ્રેષ્ઠ મોડેલ' શોધવાનું શરૂ કર્યું.

મેં પહેલા સ્પષ્ટ લક્ષ્યો નક્કી કર્યા: • ચેટ માટે 1.5 સેકન્ડથી ઓછી p99 લેટન્સી • 99.9% ઉપલબ્ધતા (availability) • મલ્ટી-રીજન ફેલોવર (Multi-region failover) • પીક લોડના 3x થ્રુપુટ ક્ષમતા (Throughput capacity)

એકવાર મારી પાસે આ આંકડા આવી ગયા, પછી ઉકેલ સ્પષ્ટ થઈ ગયો. પ્રતિ ટોકન સૌથી સસ્તું મોડેલ હંમેશા પ્રોડક્શન માટે શ્રેષ્ઠ પસંદગી હોતું નથી. જો સસ્તું મોડેલ તમારી લેટન્સી બમણી કરી દે, તો તમે યુઝર્સ ગુમાવી બેસો છો.

મેં ઘણા મોડેલ્સની સરખામણી કરી. કિંમતમાં મોટો તફાવત હતો. GPT-4o ની કિંમત પ્રતિ મિલિયન આઉટપુટ ટોકન્સ માટે $10.00 છે. GLM-4 Plus ની કિંમત $0.80 છે. અમારા ટેસ્ટમાં જાણવા મળ્યું કે સમરાઇઝેશન (summarization) અને એક્સટ્રેક્શન (extraction) જેવા અમારા ચોક્કસ કાર્યો માટે GLM-4 Plus એ લગભગ GPT-4o જેટલું જ સારું પ્રદર્શન કર્યું.

આને મેનેજ કરવા માટે મેં એક રાઉટિંગ લેયર (routing layer) બનાવ્યું. સિસ્ટમ આ નિયમોનું પાલન કરે છે: • વર્કલોડના પ્રકારના આધારે વિનંતીઓ (requests) ને રૂટ કરો • જો લેટન્સી વધે તો ફોલબેક મોડેલનો ઉપયોગ કરો • ટ્રાફિકને વિવિધ રીજન્સમાં ફેલાવો • વારંવાર આવતી વિનંતીઓને કેશ (cache) કરો

મેં Redis કેશ પણ ઉમેર્યું. એક અઠવાડિયામાં આ હિટ રેટ 40% સુધી પહોંચી ગયો. આનાથી રિપીટ ક્વેરીઝ પર અમારો ટોકન ખર્ચ ઘટ્યો અને લેટન્સી 1.4 સેકન્ડથી ઘટીને 200 મિલિસેકન્ડ થઈ ગઈ.

પરિણામો: • માસિક ઇન્ફરન્સ ખર્ચમાં 58% નો ઘટાડો થયો • p99 લેટન્સી 1.6s થી ઘટીને 1.18s થઈ ગઈ • અપટાઇમ 99.95% રહ્યો • કેશ હિટ રેટ 42% થયો

ત્રણ પાઠ જે મેં શીખ્યા:

તમારું પોતાનું ઇવેલ્યુએશન સૂટ (evaluation suite) બનાવો. સામાન્ય બેન્ચમાર્ક પર વિશ્વાસ ન કરો. તમારા વાસ્તવિક પ્રોડક્શન ડેટાનો ઉપયોગ કરો.
રેટ લિમિટ્સ (rate limits) પર નજીકથી નજર રાખો. રીજનલ ટ્રાફિક અણધાર્યા વધારા (spikes) લાવી શકે છે.
કિલ સ્વિચ (kill switch) બનાવો. એક ખરાબ પ્રોમ્પ્ટ ટોકન વપરાશમાં મોટો વધારો કરી શકે છે. મેક્સ ટોકન્સ પરની મર્યાદાએ (cap) અમને એકવાર $14,000 બચાવ્યા હતા.

જો તમારું AI બિલ ખૂબ વધારે હોય, તો પહેલા તમારા SLA વ્યાખ્યાયિત કરો. વાસ્તવિક ટ્રાફિક પરથી ઇવેલ્યુએશન સૂટ બનાવો. ત્યારબાદ, એવા મોડેલ્સની કિંમત તપાસો જેને તમે હાલમાં અવગણી રહ્યા છો.

સ્ત્રોત: https://dev.to/bolddeck/how-i-cut-our-ai-api-bill-in-half-while-hitting-p99-slas-1l05

વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

Continue reading

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗣𝗜 𝗖𝗼𝘀𝘁𝘀 𝗕𝘆 𝟳𝟬%

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝟲𝟬% 𝗪𝗶𝘁𝗵 𝗧𝗵𝗶𝘀 𝗥𝗔𝗚 𝗦𝗲𝘁𝘂𝗽

𝗛𝗼𝘄 𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗠𝘆 𝗔𝗜 𝗙𝗲𝗮𝘁𝘂𝗿𝗲 𝗳𝗿𝗼𝗺 𝗗𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝘆 𝗪𝗮𝗹𝗹𝗲𝘁

મેં એક વીકેન્ડમાં મારા AI એજન્ટનું ટોકન બિલ 62% ઘટાડ્યું

𝟳 𝗪𝗮𝘆𝘀 𝘁𝗼 𝗥𝗲𝗱𝘂𝗰𝗲 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗕𝗶𝗹𝗹