નવું AA-Briefcase બેન્ચમાર્ક વાસ્તવિક જ્ઞાન કાર્ય (Knowledge Work) માં AI ના સંઘર્ષને ઉજાગર કરે છે
જોકે સ્ટાન્ડર્ડ મૂલ્યાંકનોમાં લાર્જ લેંગ્વેજ મોડલ્સ (LLMs) વધુ સક્ષમ દેખાય છે, તેમ છતાં નવો ડેટા સૂચવે છે કે તેઓ વ્યાવસાયિક વાતાવરણની જટિલતાઓ માટે મૂળભૂત રીતે અસજ્જ છે. એક ક્રાંતિકારી બેન્ચમાર્કે પેટર્ન ઓળખવા અને બહુ-પગલાંવાળા, માહિતી-સભર જ્ઞાન કાર્યના વાસ્તવિક અમલીકરણ વચ્ચેના વિશાળ તફાવતને ખુલ્લો પાડ્યો છે.
AA-Briefcase બેન્ચમાર્ક: વાસ્તવિક દુનિયાનું અનુકરણ
પરંપરાગત AI બેન્ચમાર્ક ઘણીવાર અલગ પડેલા પ્રશ્નો અથવા સ્થિર ડેટાસેટ્સ પર આધારિત હોય છે જે આધુનિક ઓફિસની જટિલ વાસ્તવિકતાને પ્રતિબિંબિત કરતા નથી. આ અંતરને પૂરવા માટે, Artificial Analysis એ AA-Briefcase બેન્ચમાર્ક રજૂ કર્યો છે, જે લાંબા ગાળાના, અનેક અઠવાડિયાના પ્રોજેક્ટ્સનું અનુકરણ કરવા માટે રચાયેલ એક કડક પરીક્ષણ માળખું છે.
સાદા પ્રોમ્પ્ટ્સને બદલે, મોડલ્સને Slack થ્રેડ્સ, ઈમેલ ચેઈન, મીટિંગ ટ્રાન્સક્રિપ્ટ્સ અને મોટા પાયે ડેટા એક્સપોર્ટ સહિત હજારો વિખરાયેલી સોર્સ ફાઇલોમાંથી માહિતી શોધવાનું કામ સોંપવામાં આવે છે. આ માટે મોડલે ઉચ્ચ-સ્તરનું તર્ક (reasoning) કરવું, અલગ-અલગ ડેટા પોઈન્ટ્સનું સંશ્લેષણ કરવું અને વિશાળ, અસંગઠિત ડેટાસેટ્સમાં સંદર્ભ જાળવી રાખવો જરૂરી છે—જે કૌશલ્યો એનાલિસ્ટ્સ, વકીલો અને એન્જિનિયરો માટે અનિવાર્ય છે.
ટોચના મોડલ્સ પણ કેમ નિષ્ફળ જઈ રહ્યા છે
કાર્યસ્થળમાં તાત્કાલિક AI સ્વાયત્તતાની અપેક્ષા રાખનારાઓ માટે આ પરિણામો ચિંતાજનક છે. પરીક્ષણ કરાયેલ સૌથી અદ્યતન મોડલ, Anthropic’s Claude Fable 5 પણ રજૂ કરાયેલ કાર્યોના માત્ર 3 ટકા જ સંપૂર્ણ રીતે ઉકેલી શક્યું હતું. બેન્ચમાર્કે દર્શાવ્યું કે 91 વિશિષ્ટ કાર્યોમાંથી 31 કાર્યોમાં, એક પણ મોડલ 50 ટકા પાસ રેટ પણ પાર કરી શક્યું ન હતું.
આ સંશોધન બુદ્ધિ (intelligence) વધવાની સાથે AI કેવી રીતે નિષ્ફળ જાય છે તેમાં એક રસપ્રદ ફેરફાર દર્શાવે છે. "નબળા" મોડલ્સ "loud" (સ્પષ્ટ) નિષ્ફળતાઓથી પીડાય છે: તેઓ મૂળભૂત અમલીકરણમાં અટકી જાય છે, સુસંગત ફાઇલો સંપૂર્ણપણે ચૂકી જાય છે, અથવા એવા આઉટપુટ આપે છે જે મૂળભૂત રીતે બિનઉપયોગી હોય છે. તેનાથી વિપરીત, Claude Fable 5 જેવા "મજબૂત" મોડલ્સ વધુ "quietly" (શાંતિથી) નિષ્ફળ જાય છે. આ હાઈ-ટિયર મોડલ્સ સ્પષ્ટ જરૂરિયાતો પૂરી કરે છે અને વ્યાવસાયિક ફોર્મેટિંગ જાળવી રાખે છે, પરંતુ તેઓ ઊંડા તર્કની કસોટીમાં નિષ્ફળ જાય છે કારણ કે તેઓ એવા સૂક્ષ્મ વિગતો ચૂકી જાય છે જે માત્ર અનેક, અસંબંધિત સ્ત્રોતોમાંથી માહિતી ભેગી કરીને જ શોધી શકાય છે.
AI પ્રદર્શનની આર્થિક અસમાનતા
ટેકનિકલ ખામીઓ ઉપરાંત, આ બેન્ચમાર્ક વર્તમાન LLM લેન્ડસ્કેપમાં એક વિશાળ આર્થિક વિભાજનને પ્રકાશિત કરે છે. કાર્ય પૂર્ણ કરવાની કિંમત દ્વારા માપવામાં આવે ત્યારે મોડલ્સ વચ્ચે કિંમતમાં મોટો તફાવત જોવા મળે છે.
કાર્યક્ષમતામાં મોટો તફાવત જોવા મળે છે: DeepSeek V4 Flash એ અંદાજે $0.04 પ્રતિ કાર્યના ખર્ચે કાર્યો પૂર્ણ કર્યા, જ્યારે શ્રેષ્ઠ પ્રદર્શન કરનાર Claude Fable 5 નો ખર્ચ $31 પ્રતિ કાર્યથી વધુ હતો. આ 800 ગણો કિંમતમાં તફાવત દર્શાવે છે, જે અસહ્ય ઓપરેશનલ ખર્ચ વગર AI એજન્ટ્સને સ્કેલ કરવાનો પ્રયાસ કરી રહેલા સ્થાપકો અને સાહસો માટે એક મોટો પડકાર છે.
AI લેન્ડસ્કેપ માટેની અસરો
AA-Briefcase ના તારણો "AI Agent" ના હાઈપ સાયકલ માટે વાસ્તવિકતાની તપાસ તરીકે કામ કરે છે. AI ને વાતચીત કરવા માટેના સહાયકમાંથી એક વિશ્વસનીય નોલેજ વર્કરમાં પરિવર્તિત કરવા માટે, મોડલ્સ એ માત્ર સાદી માહિતી મેળવવાથી આગળ વધીને ઊંડા, ક્રોસ-કોન્ટેક્સ્ટ્યુઅલ સિન્થેસિસ તરફ વિકસિત થવું જોઈએ. ડેવલપર્સ અને ટેક લીડર્સ માટે, લક્ષ્ય હવે માત્ર પેરામીટરની સંખ્યા વધારવાનું નથી, પરંતુ વિખરાયેલા, લાંબા ગાળાના તર્કબદ્ધ કાર્યોને ઉચ્ચ ચોકસાઈ અને ઓછા માર્જિનલ ખર્ચ સાથે સંભાળવાની ક્ષમતા સુધારવાનું છે.
મુખ્ય તારણો
- ભારે પ્રદર્શન તફાવત: Claude Fable 5 જેવા અદ્યતન મોડલ્સ પણ જટિલ, બહુ-સ્ત્રોત જ્ઞાનના કાર્યો પર માત્ર 3% સંપૂર્ણ સફળતા દર હાંસલ કરે છે.
- ભૂલોનું ઉત્ક્રાંતિ: જ્યારે લો-ટિયર મોડલ્સ મૂળભૂત અમલીકરણમાં નિષ્ફળ જાય છે, ત્યારે એડવાન્સ્ડ મોડલ્સ "શાંત" ભૂલો દ્વારા નિષ્ફળ જાય છે, જેમાં વિખરાયેલા ડેટાસેટ્સમાં છુપાયેલી સૂક્ષ્મ વિગતો રહી જાય છે.
- અતિશય ખર્ચમાં તફાવત: DeepSeek V4 Flash જેવા બજેટ-ફ્રેન્ડલી મોડલ્સ અને Claude Fable 5 જેવા પ્રીમિયમ મોડલ્સ વચ્ચે પ્રતિ-કાર્ય અમલીકરણમાં 800 ગણો ખર્ચનો તફાવત છે.