તમારું AI બિલ મોડેલની સમસ્યા નથી. તે આર્કિટેક્ચરની સમસ્યા છે.

જો તમારા LLM ખર્ચ વધી રહ્યા હોય, તો તમે કદાચ સસ્તા મોડેલ પર સ્વિચ કરવા માંગતા હશો. તમે GPT-4 થી GPT-4-mini પર જઈ શકો છો. આ થોડી મદદ કરે છે, પરંતુ તે ભાગ્યે જ વાસ્તવિક સમસ્યાનું નિરાકરણ લાવે છે.

વાસ્તવિક સમસ્યા તમારો વર્કફ્લો (workflow) છે. મોટાભાગના લોકો દરેક સ્ટેપને LLM દ્વારા રૂટ કરે છે. તેઓ એવા કાર્યો માટે લેંગ્વેજ રીઝનિંગનો ઉપયોગ કરે છે જેને તેની જરૂર નથી.

દરેક AI વર્કફ્લોના ચાર ભાગ છે:

• Trigger: કામ શરૂ કરે છે. ખર્ચ લગભગ શૂન્ય છે. • Deterministic ML: ડેટાનું વર્ગીકરણ અથવા સ્કોરિંગ કરે છે. આ સસ્તું છે. • LLM: વાંચે છે, લખે છે અને તર્ક (reasoning) કરે છે. આ મોંઘું છે. • Tool/API: ડેટા મેળવે છે અથવા લખે છે. આ સસ્તું છે.

Deterministic ML અને LLM વચ્ચેનો તફાવત ઘણો મોટો છે. એક LLM સાદા ક્લાસિફાયર કરતા 100 ગણું થી 1000 ગણું વધુ ખર્ચાળ હોઈ શકે છે. જો તમે દરેક સ્ટેપ માટે યોગ્ય સાધન પસંદ ન કરો, તો તમે આપોઆપ મોંઘા સાધનને જ પસંદ કરી લો છો.

સપોર્ટ ટિકિટ સિસ્ટમ પર નજર નાખો.

એક ખરાબ બિલ્ડ આખી ટિકિટ LLM ને મોકલે છે. તે LLM ને ઇન્ટેન્ટ (intent) વર્ગીકૃત કરવા, ટિકિટ રૂટ કરવા, જવાબ ડ્રાફ્ટ કરવા અને CRM અપડેટ કરવા માટે કહે છે. આ બિનજરૂરી રીતે મોંઘું છે. વર્ગીકરણ માટે LLM ની જરૂર નથી. ટેક્સ્ટને કેટેગરી સાથે મેપ કરવા માટે એક સાદા મોડેલની જરૂર હોય છે.

એક બહેતર બિલ્ડ આવું દેખાય છે:

  1. Trigger: એક ટિકિટ આવે છે.
  2. Deterministic ML: એક ઝડપી, સસ્તું મોડેલ નક્કી કરે છે કે ટિકિટ બિલિંગ, ટેકનિકલ અથવા સ્પામ છે.
  3. LLM: ફક્ત માન્ય ટિકિટો માટે જવાબ ડ્રાફ્ટ કરવા માટે જ વપરાય છે.
  4. Tool/API: સિસ્ટમ CRM અપડેટ કરે છે.

આ વર્ઝનમાં, સ્પામ ટિકિટો ક્યારેય LLM સુધી પહોંચતી નથી. તમે નકામા કાર્યો પર "LLM ટેક્સ" ચૂકવવાનું બંધ કરો છો.

જો તમે તમારા આર્કિટેક્ચરને યોગ્ય રીતે રૂટ કરો છો, તો તમે મોડેલ્સ બદલતા પહેલા જ સૌથી મોંઘા કોલ્સ (calls) દૂર કરી શકો છો.

તમારા ખર્ચ ઘટાડવા માટે આ સ્ટેપ્સ અનુસરો:

  • તમારા વર્કફ્લોને મેપ કરો. કયા સ્ટેપ્સને વાસ્તવિક રીઝનિંગની જરૂર છે અને કયા માત્ર વર્ગીકરણ અથવા એક્સટ્રેક્શન (extraction) છે તે ઓળખો.
  • Deterministic સ્ટેપ્સને પ્રોમ્પ્ટમાંથી બહાર કાઢો. રૂટિંગ અને સ્કોરિંગ માટે ઝડપી અને સસ્તા પદ્ધતિઓનો ઉપયોગ કરો.
  • LLM ને ગેટ (gate) કરો. એવા કાર્યો માટે પ્રતિસાદ (responses) જનરેટ કરશો નહીં જેને તેની જરૂર નથી.
  • મોડેલના કદનું મૂલ્યાંકન છેલ્લે કરો. જ્યારે તમારું આર્કિટેક્ચર સ્લીમ (lean) થઈ જાય, ત્યારે જ જનરેશન સ્ટેપ માટે નાનું મોડેલ પસંદ કરો.

કયું મોડેલ પ્રતિ ટોકન સૌથી સસ્તું છે તેના વિશે દલીલ કરવાનું બંધ કરો. એવા આર્કિટેક્ચર બનાવવાનું શરૂ કરો જે મોંઘા એન્જિનનો ઉપયોગ માત્ર જરૂર હોય ત્યારે જ કરે.

Source: https://dev.to/bakshiyogesh/your-ai-bill-isnt-a-model-problem-its-an-architecture-problem-1ole

Optional learning community: https://t.me/GyaanSetuAi