LLM બેન્ચમાર્ક ના યુગમાં એજન્ટિક AI નું મૂલ્યાંકન
મોટાભાગના AI પરીક્ષણો એક સરળ પદ્ધતિ અનુસરે છે. તમે મોડેલને એક પ્રોમ્પ્ટ આપો છો. તમે જવાબની સંદર્ભ સાથે સરખામણી કરો છો. તમે પરિણામને સ્કોર આપો છો.
આ સારાંશ (summaries) માટે કામ કરે છે. આ વર્ગીકરણ (classification) માટે કામ કરે છે. પરંતુ જ્યારે મોડેલે બદલાતા વાતાવરણમાં કાર્ય કરવું પડે ત્યારે તે નિષ્ફળ જાય છે.
'The Age of LLM' પેપર એક વધુ સારી રીત રજૂ કરે છે. તે ગ્રીડ પર રમાતી 1v1 ગેમ છે. બે મોડેલ્સ 'ફોગ ઓફ વોર' (fog of war) હેઠળ સ્પર્ધા કરે છે. તેઓ બધું જોઈ શકતા નથી. દુશ્મન યુનિટ્સ શોધવા માટે તેમણે સ્કાઉટિંગ કરવું પડે છે અથવા અનુમાન લગાવવું પડે છે. સોદા અથવા અલ્ટીમેટમ આપવા માટે તેમણે રાજદ્વારી (diplomacy) અભિગમ અપનાવવો પડે છે.
દરેક ચાલ (move) એ કડક JSON schema ને અનુસરવી જોઈએ. જો કોઈ ચાલ ગેરકાયદેસર હોય, તો સિસ્ટમ તેને રદ કરી દે છે.
આ પરીક્ષણ ચોક્કસ કૌશલ્યો માપે છે:
- સ્ટેટ ટ્રેકિંગ (State tracking): શું મોડેલને યાદ રહે છે કે તેણે શું જોયું અને શું ગુમાવ્યું?
- બિલીફ મેનેજમેન્ટ (Belief management): શું તે અધૂરી માહિતી સાથે સમજદારીપૂર્વક કાર્ય કરે છે?
- એક્શન વેલિડિટી (Action validity): શું તે વાતાવરણના નિયમોનું પાલન કરે છે?
- લોંગ-હોરાઇઝન સ્ટ્રેટેજી (Long-horizon strategy): શું તે લક્ષ્ય સુધી પહોંચાડે તેવી ચાલનો ક્રમ પસંદ કરી શકે છે?
એક મોડેલ સાંભળવામાં પ્રવાહિત લાગે પરંતુ વ્યવહારમાં નિષ્ફળ જઈ શકે છે. તે તેની સ્થિતિ (state) ભૂલી શકે છે અથવા અમાન્ય ટૂલ કોલ્સ (tool calls) કરી શકે છે.
પરિણામો એક પેટર્ન દર્શાવે છે. અનિશ્ચિતતા હેઠળ ઘણા મોડેલ્સ સરળ જાળમાં ફસાઈ જાય છે. મોટાભાગના મોડેલ્સે આક્રમક લશ્કરી પગલાં પસંદ કર્યા. રાજદ્વારી પ્રયાસો થયા, પરંતુ કરારો ભાગ્યે જ પૂર્ણ થયા. ઘણા ભૂલો નબળા સ્ટેટ ટ્રેકિંગને કારણે આવી હતી.
સ્ટાન્ડર્ડ બેન્ચમાર્ક આ નિષ્ફળતાઓ ચૂકી જાય છે. એક મોડેલ ઉત્તમ સમજૂતી લખી શકે છે પરંતુ છુપાયેલા યુનિટને ટ્રેક કરવામાં નિષ્ફળ જઈ શકે છે. જ્યારે વાતાવરણ મોડેલને કાર્ય કરવા માટે મજબૂર કરે છે ત્યારે જ તમે આ જોઈ શકો છો.
વર્તમાન AI કાર્ય ઘણીવાર ટૂલના ઉપયોગ પર ધ્યાન કેન્દ્રિત કરે છે. ટૂલનો ઉપયોગ જરૂરી છે, પરંતુ તે પૂરતો નથી. એક સાચા એજન્ટે સંદર્ભ (context) જાળવી રાખવો જોઈએ અને જ્યારે પરિસ્થિતિ બદલાય ત્યારે તેમાંથી બહાર આવવું જોઈએ.
ઉદ્યોગ હવે ચેટની ગુણવત્તાથી બદલાઈને પરિણામો (outcomes) તરફ વળી રહ્યો છે. ઉપયોગી સિસ્ટમનું માપદંડ એ છે કે તેઓ કામ પૂર્ણ કરે છે કે નહીં, નહીં કે તેઓ કેટલું સુધારેલું લખાણ (polished prose) રજૂ કરે છે.
જો કોઈ એજન્ટ બિલીફ સ્ટેટ (belief state) જાળવી શકતું નથી, તો તે વ્યૂહાત્મક નથી. જો તે સ્કીમાનું પાલન કરી શકતું નથી, તો તેનો ટૂલ ઉપયોગ અસ્થિર (brittle) છે.
વાસ્તવિક એજન્ટિક ક્ષમતા માટે બે વસ્તુઓની જરૂર છે:
- આયોજન કરવાની ક્ષમતા.
- અનિશ્ચિતતા હેઠળ અમલ કરવાની ક્ષમતા.
સોફ્ટવેરમાં, ખરાબ આઉટપુટ એ બગ (bug) છે. AI એજન્ટ્સમાં, ખરાબ આઉટપુટ ઘણીવાર એક 'સાયલન્ટ ફેઈલ્યોર' (silent failure) હોય છે. એક ટૂલ કોલ કંઈ જ કરતું નથી. એક છુપાયેલું અનુમાન ખોટું હોય છે. જો તમે ફક્ત અંતિમ જવાબને જ સ્કોર આપો છો, તો તમે સમસ્યાને ચૂકી જશો.
આપણે આ બાબતો માટે પરીક્ષણ કરવું જોઈએ:
- આંશિક અવલોકનક્ષમતા (Partial observability)
- છુપાયેલી સ્થિતિ (Hidden state)
- લોંગ-હોરાઇઝન સંકલન (Long-horizon coordination)
- એક્શન વેલિડિટી (Action validity)
- ભૂલોમાંથી સુધારો (Recovery from mistakes)
મૂલ્યાંકન વાસ્તવિક દુનિયામાં આ સિસ્ટમ્સ કેવી રીતે કામ કરે છે તેની વધુ નજીક હોવું જોઈએ.
Optional learning community: https://t.me/GyaanSetuAi
