મેં એક વીકેન્ડમાં મારા AI એજન્ટનું ટોકન બિલ 62% ઘટાડ્યું
મારા AI એજન્ટનો ખર્ચ પ્રતિ કાર્ય $5.40 હતો. મેં એક વીકેન્ડમાં આ ખર્ચ ઘટાડીને પ્રતિ કાર્ય $2.05 કરી દીધો. મેં ગુણવત્તા ગુમાવ્યા વગર આ 62% નો ઘટાડો હાંસલ કર્યો.
મેં આ કેવી રીતે કર્યું તે અહીં છે.
સમસ્યા: મારો એજન્ટ એક રિસર્ચ લૂપ ચલાવે છે. તે વેબ સર્ચ કરે છે, પેજ સ્ક્રેપ કરે છે અને સારાંશ લખે છે. તે ત્રણ રીતે ટોકન્સનો બગાડ કરી રહ્યો હતો:
- Context stuffing: હું મોડેલને આખા 50,000 કેરેક્ટરના પેજ મોકલતો હતો. મને માત્ર 2,000 કેરેક્ટરની જરૂર હતી. એક સોય શોધવા માટે હું આખા ઘાસના ઢગલા (haystack) માટે ચૂકવણી કરી રહ્યો હતો.
- Verbose prompts: મારા સિસ્ટમ પ્રોમ્પ્ટ્સમાં એક જ સૂચનાઓ ત્રણ વાર પુનરાવર્તિત થતી હતી. દરેક વખતે મોડેલને મારા પોતાના શબ્દો ફરીથી વાંચવા માટે મારે પૈસા ચૂકવવા પડતા હતા.
- મોંઘા મોડેલ્સનો વધુ પડતો ઉપયોગ: હું એક પેરેગ્રાફનો સારાંશ લેવા જેવા સાદા કાર્યો માટે પણ હાઈ-ટિયર રીઝનિંગ મોડેલ્સનો ઉપયોગ કરતો હતો.
ઉકેલો:
મોકલતા પહેલા ફિલ્ટર કરો આખા પેજ મોકલવાને બદલે, હવે હું ટેક્સ્ટના ટુકડા (chunk) કરું છું. હું પહેલા સંબંધિત ભાગો શોધું છું. પછી હું મોડેલને માત્ર તે જ ભાગો મોકલું છું. આનાથી પ્રતિ પેજ ઇનપુટ ટોકન્સ 12,500 થી ઘટીને 3,200 થઈ ગયા.
સિસ્ટમ પ્રોમ્પ્ટ ટ્રીમ કરો મેં બિનજરૂરી સૂચનાઓ કાઢી નાખી. મેં એવા ટૂલ વર્ણનો દૂર કર્યા જે મોડેલ પહેલેથી જ જાણે છે. મેં "think step-by-step" જેવા બોઈલરપ્લેટનો ઉપયોગ કરવાનું બંધ કરી દીધું કારણ કે આધુનિક મોડેલ્સ આ કામ ડિફોલ્ટ રીતે જ કરે છે.
Tiered model routing મેં બધું કામ કરવા માટે એક જ મોડેલનો ઉપયોગ કરવાનું બંધ કર્યું. મેં કાર્યોને ત્રણ સ્તરોમાં વહેંચ્યા:
- Extraction: સસ્તું, નાનું મોડેલ વાપરો.
- Synthesis: હાઈ-ટિયર રીઝનિંગ મોડેલ વાપરો.
- Formatting: સસ્તું, નાનું મોડેલ વાપરો.
50-કાર્યના ટેસ્ટના પરિણામો:
- પ્રતિ કાર્ય ખર્ચ: $5.40 થી $2.05
- લેટન્સી (Latency): 41s થી 28s
- સાઇટેશન કવરેજ (Citation coverage): 67% થી 89%
એજન્ટ વધુ સ્માર્ટ નથી થયો. પાઇપલાઇન ફક્ત વધુ કાર્યક્ષમ બની છે.
તમારા પ્રોડક્શન એજન્ટ્સ માટે ત્રણ પાઠ:
- ટોકન માટે કડક બજેટ નક્કી કરો. જો તે તમારી મર્યાદા ઓળંગે તો કાર્ય બંધ કરી દો.
- તમારા પરિણામો કેશ (Cache) કરો. એક જ URL ને બે વાર સ્ક્રેપ ન કરો.
- બધું લોગ (Log) કરો. તમારે ચોક્કસપણે જાણવું જોઈએ કે કયા સ્ટેપમાં સૌથી વધુ ખર્ચ થાય છે.
જ્યારે ગુણવત્તા ઘટે ત્યારે મોટા મોડેલ્સ તરફ દોડવાનું બંધ કરો. ટાઈટ કોન્ટેક્સ્ટ સાથે નાના મોડેલ્સનો ઉપયોગ કરવાનું શરૂ કરો.
સ્ત્રોત: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1
વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi