LLM બેન્ચમાર્કસના યુગમાં એજન્ટિક AIનું મૂલ્યાંકન

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialગયા અઠવાડિયે2min read

LLM બેન્ચમાર્કસના યુગમાં એજન્ટિક AIનું મૂલ્યાંકન

LLM બેન્ચમાર્ક ના યુગમાં એજન્ટિક AI નું મૂલ્યાંકન

મોટાભાગના AI પરીક્ષણો એક સરળ પદ્ધતિ અનુસરે છે. તમે મોડેલને એક પ્રોમ્પ્ટ આપો છો. તમે જવાબની સંદર્ભ સાથે સરખામણી કરો છો. તમે પરિણામને સ્કોર આપો છો.

આ સારાંશ (summaries) માટે કામ કરે છે. આ વર્ગીકરણ (classification) માટે કામ કરે છે. પરંતુ જ્યારે મોડેલે બદલાતા વાતાવરણમાં કાર્ય કરવું પડે ત્યારે તે નિષ્ફળ જાય છે.

'The Age of LLM' પેપર એક વધુ સારી રીત રજૂ કરે છે. તે ગ્રીડ પર રમાતી 1v1 ગેમ છે. બે મોડેલ્સ 'ફોગ ઓફ વોર' (fog of war) હેઠળ સ્પર્ધા કરે છે. તેઓ બધું જોઈ શકતા નથી. દુશ્મન યુનિટ્સ શોધવા માટે તેમણે સ્કાઉટિંગ કરવું પડે છે અથવા અનુમાન લગાવવું પડે છે. સોદા અથવા અલ્ટીમેટમ આપવા માટે તેમણે રાજદ્વારી (diplomacy) અભિગમ અપનાવવો પડે છે.

દરેક ચાલ (move) એ કડક JSON schema ને અનુસરવી જોઈએ. જો કોઈ ચાલ ગેરકાયદેસર હોય, તો સિસ્ટમ તેને રદ કરી દે છે.

આ પરીક્ષણ ચોક્કસ કૌશલ્યો માપે છે:

સ્ટેટ ટ્રેકિંગ (State tracking): શું મોડેલને યાદ રહે છે કે તેણે શું જોયું અને શું ગુમાવ્યું?
બિલીફ મેનેજમેન્ટ (Belief management): શું તે અધૂરી માહિતી સાથે સમજદારીપૂર્વક કાર્ય કરે છે?
એક્શન વેલિડિટી (Action validity): શું તે વાતાવરણના નિયમોનું પાલન કરે છે?
લોંગ-હોરાઇઝન સ્ટ્રેટેજી (Long-horizon strategy): શું તે લક્ષ્ય સુધી પહોંચાડે તેવી ચાલનો ક્રમ પસંદ કરી શકે છે?

એક મોડેલ સાંભળવામાં પ્રવાહિત લાગે પરંતુ વ્યવહારમાં નિષ્ફળ જઈ શકે છે. તે તેની સ્થિતિ (state) ભૂલી શકે છે અથવા અમાન્ય ટૂલ કોલ્સ (tool calls) કરી શકે છે.

પરિણામો એક પેટર્ન દર્શાવે છે. અનિશ્ચિતતા હેઠળ ઘણા મોડેલ્સ સરળ જાળમાં ફસાઈ જાય છે. મોટાભાગના મોડેલ્સે આક્રમક લશ્કરી પગલાં પસંદ કર્યા. રાજદ્વારી પ્રયાસો થયા, પરંતુ કરારો ભાગ્યે જ પૂર્ણ થયા. ઘણા ભૂલો નબળા સ્ટેટ ટ્રેકિંગને કારણે આવી હતી.

સ્ટાન્ડર્ડ બેન્ચમાર્ક આ નિષ્ફળતાઓ ચૂકી જાય છે. એક મોડેલ ઉત્તમ સમજૂતી લખી શકે છે પરંતુ છુપાયેલા યુનિટને ટ્રેક કરવામાં નિષ્ફળ જઈ શકે છે. જ્યારે વાતાવરણ મોડેલને કાર્ય કરવા માટે મજબૂર કરે છે ત્યારે જ તમે આ જોઈ શકો છો.

વર્તમાન AI કાર્ય ઘણીવાર ટૂલના ઉપયોગ પર ધ્યાન કેન્દ્રિત કરે છે. ટૂલનો ઉપયોગ જરૂરી છે, પરંતુ તે પૂરતો નથી. એક સાચા એજન્ટે સંદર્ભ (context) જાળવી રાખવો જોઈએ અને જ્યારે પરિસ્થિતિ બદલાય ત્યારે તેમાંથી બહાર આવવું જોઈએ.

ઉદ્યોગ હવે ચેટની ગુણવત્તાથી બદલાઈને પરિણામો (outcomes) તરફ વળી રહ્યો છે. ઉપયોગી સિસ્ટમનું માપદંડ એ છે કે તેઓ કામ પૂર્ણ કરે છે કે નહીં, નહીં કે તેઓ કેટલું સુધારેલું લખાણ (polished prose) રજૂ કરે છે.

જો કોઈ એજન્ટ બિલીફ સ્ટેટ (belief state) જાળવી શકતું નથી, તો તે વ્યૂહાત્મક નથી. જો તે સ્કીમાનું પાલન કરી શકતું નથી, તો તેનો ટૂલ ઉપયોગ અસ્થિર (brittle) છે.

વાસ્તવિક એજન્ટિક ક્ષમતા માટે બે વસ્તુઓની જરૂર છે:

આયોજન કરવાની ક્ષમતા.
અનિશ્ચિતતા હેઠળ અમલ કરવાની ક્ષમતા.

સોફ્ટવેરમાં, ખરાબ આઉટપુટ એ બગ (bug) છે. AI એજન્ટ્સમાં, ખરાબ આઉટપુટ ઘણીવાર એક 'સાયલન્ટ ફેઈલ્યોર' (silent failure) હોય છે. એક ટૂલ કોલ કંઈ જ કરતું નથી. એક છુપાયેલું અનુમાન ખોટું હોય છે. જો તમે ફક્ત અંતિમ જવાબને જ સ્કોર આપો છો, તો તમે સમસ્યાને ચૂકી જશો.

આપણે આ બાબતો માટે પરીક્ષણ કરવું જોઈએ:

આંશિક અવલોકનક્ષમતા (Partial observability)
છુપાયેલી સ્થિતિ (Hidden state)
લોંગ-હોરાઇઝન સંકલન (Long-horizon coordination)
એક્શન વેલિડિટી (Action validity)
ભૂલોમાંથી સુધારો (Recovery from mistakes)

મૂલ્યાંકન વાસ્તવિક દુનિયામાં આ સિસ્ટમ્સ કેવી રીતે કામ કરે છે તેની વધુ નજીક હોવું જોઈએ.

Source: https://dev.to/prabhakar_chaudhary_7afe4/what-the-age-of-llm-benchmark-says-about-evaluating-agentic-ai-2hfc

Optional learning community: https://t.me/GyaanSetuAi

LLM બેન્ચમાર્કસના યુગમાં એજન્ટિક AIનું મૂલ્યાંકન

LLM બેન્ચમાર્ક ના યુગમાં એજન્ટિક AI નું મૂલ્યાંકન

Continue reading

𝗦𝗰𝗼𝗿𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗠𝗲𝘁𝗿𝗶𝗰𝘀 + 𝗮𝗻 𝗟𝗟𝗠 𝗝𝘂𝗱𝗴𝗲

AI એજન્ટના કાર્યો નક્કી કરવા માટે LLM નો ઉપયોગ કરશો નહીં

એજન્ટિક લૂપ: એક વ્યવહારુ ફિલ્ડ ગાઈડ

AI એજન્ટનું મૂલ્યાંકન ખૂબ વહેલું સમાપ્ત થઈ જાય છે

Observability in Agentic AI