તમારા બજેટને બગાડ્યા વિના LLMs નો ઉપયોગ કેવી રીતે કરવો

AI ડેમો બનાવવો સરળ છે. તમે એક API કી મેળવો છો, પ્રોમ્પ્ટ લખો છો, અને તે કામ કરે છે.

પરંતુ તેને વાસ્તવિક વપરાશકર્તાઓ સુધી પહોંચાડવું અલગ છે. ટ્રાફિક આવે છે અને તમારી કિંમતો (costs) વધી જાય છે. તમારી લેટન્સી (latency) વધે છે. તમારી ફાઇનાન્સ ટીમ પ્રશ્નો પૂછે છે.

ડેમો અને વાસ્તવિક પ્રોડક્ટ વચ્ચેનો તફાવત એ એન્જિનિયરિંગ છે. તમારે ખર્ચ અને ઝડપનું સંચાલન કરવું પડશે.

પૈસા બચાવવા માટે તમારા આઉટપુટને નિયંત્રિત કરો

મોટાભાગની APIs દરેક ટોકન દીઠ ચાર્જ લે છે. તમે જે મોકલો છો અને તેઓ જે પાછું મોકલે છે તેના માટે તેઓ ચાર્જ લે છે. આઉટપુટ ટોકન્સની કિંમત ઇનપુટ ટોકન્સ કરતા વધારે હોય છે.

ફક્ત તમારા પ્રોમ્પ્ટ્સને ટૂંકા ન કરો. જવાબ પર ધ્યાન કેન્દ્રિત કરો. • JSON માંગો. • એક વાક્યમાં જવાબ માંગો. • મહત્તમ ટોકન મર્યાદા (max token limit) સેટ કરો. • મોડેલને ટૂંકમાં જવાબ આપવા કહો.

ટૂંકા જવાબો સસ્તા અને ઝડપી હોય છે.

કોલ્સ (calls) ની સંખ્યા ઘટાડો

સૌથી સસ્તો કોલ તે છે જે તમે ક્યારેય નથી કરતા.

  • કેશિંગ (caching) નો ઉપયોગ કરો. ઘણા વપરાશકર્તાઓ સમાન પ્રશ્નો પૂછે છે. કેશ એક ધીમા API કોલને ઝડપી લુકઅપમાં બદલી નાખે છે.
  • રાઉટર (router) નો ઉપયોગ કરો. તમારે દરેક કાર્ય માટે વિશાળ મોડેલની જરૂર નથી. સરળ કામ માટે નાના, સસ્તા મોડેલનો ઉપયોગ કરો. મોંઘા મોડેલનો ઉપયોગ ફક્ત અઘરા કાર્યો માટે જ કરો.

વપરાશકર્તા અનુભવ (user experience) સુધારો

ક્યારેક તમે મોડેલને ઝડપી બનાવી શકતા નથી. તમે તેને ઝડપી હોવાનો અહેસાસ કરાવી શકો છો.

  • સ્ટ્રીમ રિસ્પોન્સ (Stream responses). ટેક્સ્ટ જેમ જ જનરેટ થાય તેમ બતાવો. વપરાશકર્તાઓ તરત જ વાંચવાનું શરૂ કરી દે છે. આનાથી રાહ જોવાનો સમય ઓછો લાગે છે.
  • પ્રગતિ (progress) બતાવો. જો કામમાં સ્ટેપ્સ હોય, તો વપરાશકર્તાને જણાવો. ખાલી લોડિંગ સ્પિનરને બદલે "Searching documents..." જેવા મેસેજ વાપરો.

ધીમા રિક્વેસ્ટ્સનું સંચાલન કરો

થોડા ખૂબ જ ધીમા રિક્વેસ્ટ્સ તમારી પ્રોડક્ટ બગાડી શકે છે. તેમને અટકી ન રહેવા દો.

  • કડક ટાઈમઆઉટ (timeouts) સેટ કરો. જો રિક્વેસ્ટમાં વધુ સમય લાગે તો શું કરવું તે નક્કી કરો.
  • મર્યાદા સાથે રિટ્રાય (retries) નો ઉપયોગ કરો. અનંતકાળ સુધી રિટ્રાય ન કરો.
  • સર્કિટ બ્રેકર્સ (circuit breakers) નો ઉપયોગ કરો. જો પ્રોવાઈડર ડાઉન હોય, તો રિક્વેસ્ટ મોકલવાનું બંધ કરો અને ફોલબેક (fallback) બતાવો.

તમારા ડેટાને ટ્રેક કરો

તમે જેનું માપન નથી કરી શકતા તેને સુધારી શકતા નથી. દરેક રિક્વેસ્ટ માટે આ ત્રણ વસ્તુઓ લોગ કરો: • ઇનપુટ ટોકન્સ • આઉટપુટ ટોકન્સ • કુલ લેટન્સી (Total latency)

આને ફીચર મુજબ ટ્રેક કરો. તમને કદાચ એક ચોક્કસ ફીચર મળશે જે તમારા મોટાભાગના ખર્ચનું કારણ બને છે.

મોડેલને જાદુ તરીકે જોવાનું બંધ કરો. તેને એક ધીમી, મોંઘી ડિપેન્ડન્સી (dependency) તરીકે ગણો જેનું તમારે સંચાલન કરવું પડશે.

સ્ત્રોત: https://dev.to/muhammadzainnaseer/how-to-put-an-llm-in-your-product-without-wrecking-your-costs-or-your-latency-89a