નવું AA બ્રીફકેસ બેન્ચમાર્ક વાસ્તવિક જ્ઞાનલક્ષી કાર્યમાં AI ના સંઘર્ષને દર્શાવે છે

Translated for your language. Read the original.

AI-assisted draft.

ગયા પરમદિવસે3min read

In this article

નવું AA-Briefcase બેન્ચમાર્ક વાસ્તવિક જ્ઞાન કાર્ય (Knowledge Work) માં AI ના સંઘર્ષને ઉજાગર કરે છે

જોકે સ્ટાન્ડર્ડ મૂલ્યાંકનોમાં લાર્જ લેંગ્વેજ મોડલ્સ (LLMs) વધુ સક્ષમ દેખાય છે, તેમ છતાં નવો ડેટા સૂચવે છે કે તેઓ વ્યાવસાયિક વાતાવરણની જટિલતાઓ માટે મૂળભૂત રીતે અસજ્જ છે. એક ક્રાંતિકારી બેન્ચમાર્કે પેટર્ન ઓળખવા અને બહુ-પગલાંવાળા, માહિતી-સભર જ્ઞાન કાર્યના વાસ્તવિક અમલીકરણ વચ્ચેના વિશાળ તફાવતને ખુલ્લો પાડ્યો છે.

AA-Briefcase બેન્ચમાર્ક: વાસ્તવિક દુનિયાનું અનુકરણ

પરંપરાગત AI બેન્ચમાર્ક ઘણીવાર અલગ પડેલા પ્રશ્નો અથવા સ્થિર ડેટાસેટ્સ પર આધારિત હોય છે જે આધુનિક ઓફિસની જટિલ વાસ્તવિકતાને પ્રતિબિંબિત કરતા નથી. આ અંતરને પૂરવા માટે, Artificial Analysis એ AA-Briefcase બેન્ચમાર્ક રજૂ કર્યો છે, જે લાંબા ગાળાના, અનેક અઠવાડિયાના પ્રોજેક્ટ્સનું અનુકરણ કરવા માટે રચાયેલ એક કડક પરીક્ષણ માળખું છે.

સાદા પ્રોમ્પ્ટ્સને બદલે, મોડલ્સને Slack થ્રેડ્સ, ઈમેલ ચેઈન, મીટિંગ ટ્રાન્સક્રિપ્ટ્સ અને મોટા પાયે ડેટા એક્સપોર્ટ સહિત હજારો વિખરાયેલી સોર્સ ફાઇલોમાંથી માહિતી શોધવાનું કામ સોંપવામાં આવે છે. આ માટે મોડલે ઉચ્ચ-સ્તરનું તર્ક (reasoning) કરવું, અલગ-અલગ ડેટા પોઈન્ટ્સનું સંશ્લેષણ કરવું અને વિશાળ, અસંગઠિત ડેટાસેટ્સમાં સંદર્ભ જાળવી રાખવો જરૂરી છે—જે કૌશલ્યો એનાલિસ્ટ્સ, વકીલો અને એન્જિનિયરો માટે અનિવાર્ય છે.

ટોચના મોડલ્સ પણ કેમ નિષ્ફળ જઈ રહ્યા છે

કાર્યસ્થળમાં તાત્કાલિક AI સ્વાયત્તતાની અપેક્ષા રાખનારાઓ માટે આ પરિણામો ચિંતાજનક છે. પરીક્ષણ કરાયેલ સૌથી અદ્યતન મોડલ, Anthropic’s Claude Fable 5 પણ રજૂ કરાયેલ કાર્યોના માત્ર 3 ટકા જ સંપૂર્ણ રીતે ઉકેલી શક્યું હતું. બેન્ચમાર્કે દર્શાવ્યું કે 91 વિશિષ્ટ કાર્યોમાંથી 31 કાર્યોમાં, એક પણ મોડલ 50 ટકા પાસ રેટ પણ પાર કરી શક્યું ન હતું.

આ સંશોધન બુદ્ધિ (intelligence) વધવાની સાથે AI કેવી રીતે નિષ્ફળ જાય છે તેમાં એક રસપ્રદ ફેરફાર દર્શાવે છે. "નબળા" મોડલ્સ "loud" (સ્પષ્ટ) નિષ્ફળતાઓથી પીડાય છે: તેઓ મૂળભૂત અમલીકરણમાં અટકી જાય છે, સુસંગત ફાઇલો સંપૂર્ણપણે ચૂકી જાય છે, અથવા એવા આઉટપુટ આપે છે જે મૂળભૂત રીતે બિનઉપયોગી હોય છે. તેનાથી વિપરીત, Claude Fable 5 જેવા "મજબૂત" મોડલ્સ વધુ "quietly" (શાંતિથી) નિષ્ફળ જાય છે. આ હાઈ-ટિયર મોડલ્સ સ્પષ્ટ જરૂરિયાતો પૂરી કરે છે અને વ્યાવસાયિક ફોર્મેટિંગ જાળવી રાખે છે, પરંતુ તેઓ ઊંડા તર્કની કસોટીમાં નિષ્ફળ જાય છે કારણ કે તેઓ એવા સૂક્ષ્મ વિગતો ચૂકી જાય છે જે માત્ર અનેક, અસંબંધિત સ્ત્રોતોમાંથી માહિતી ભેગી કરીને જ શોધી શકાય છે.

AI પ્રદર્શનની આર્થિક અસમાનતા

ટેકનિકલ ખામીઓ ઉપરાંત, આ બેન્ચમાર્ક વર્તમાન LLM લેન્ડસ્કેપમાં એક વિશાળ આર્થિક વિભાજનને પ્રકાશિત કરે છે. કાર્ય પૂર્ણ કરવાની કિંમત દ્વારા માપવામાં આવે ત્યારે મોડલ્સ વચ્ચે કિંમતમાં મોટો તફાવત જોવા મળે છે.

કાર્યક્ષમતામાં મોટો તફાવત જોવા મળે છે: DeepSeek V4 Flash એ અંદાજે $0.04 પ્રતિ કાર્યના ખર્ચે કાર્યો પૂર્ણ કર્યા, જ્યારે શ્રેષ્ઠ પ્રદર્શન કરનાર Claude Fable 5 નો ખર્ચ $31 પ્રતિ કાર્યથી વધુ હતો. આ 800 ગણો કિંમતમાં તફાવત દર્શાવે છે, જે અસહ્ય ઓપરેશનલ ખર્ચ વગર AI એજન્ટ્સને સ્કેલ કરવાનો પ્રયાસ કરી રહેલા સ્થાપકો અને સાહસો માટે એક મોટો પડકાર છે.

AI લેન્ડસ્કેપ માટેની અસરો

AA-Briefcase ના તારણો "AI Agent" ના હાઈપ સાયકલ માટે વાસ્તવિકતાની તપાસ તરીકે કામ કરે છે. AI ને વાતચીત કરવા માટેના સહાયકમાંથી એક વિશ્વસનીય નોલેજ વર્કરમાં પરિવર્તિત કરવા માટે, મોડલ્સ એ માત્ર સાદી માહિતી મેળવવાથી આગળ વધીને ઊંડા, ક્રોસ-કોન્ટેક્સ્ટ્યુઅલ સિન્થેસિસ તરફ વિકસિત થવું જોઈએ. ડેવલપર્સ અને ટેક લીડર્સ માટે, લક્ષ્ય હવે માત્ર પેરામીટરની સંખ્યા વધારવાનું નથી, પરંતુ વિખરાયેલા, લાંબા ગાળાના તર્કબદ્ધ કાર્યોને ઉચ્ચ ચોકસાઈ અને ઓછા માર્જિનલ ખર્ચ સાથે સંભાળવાની ક્ષમતા સુધારવાનું છે.

મુખ્ય તારણો

ભારે પ્રદર્શન તફાવત: Claude Fable 5 જેવા અદ્યતન મોડલ્સ પણ જટિલ, બહુ-સ્ત્રોત જ્ઞાનના કાર્યો પર માત્ર 3% સંપૂર્ણ સફળતા દર હાંસલ કરે છે.
ભૂલોનું ઉત્ક્રાંતિ: જ્યારે લો-ટિયર મોડલ્સ મૂળભૂત અમલીકરણમાં નિષ્ફળ જાય છે, ત્યારે એડવાન્સ્ડ મોડલ્સ "શાંત" ભૂલો દ્વારા નિષ્ફળ જાય છે, જેમાં વિખરાયેલા ડેટાસેટ્સમાં છુપાયેલી સૂક્ષ્મ વિગતો રહી જાય છે.
અતિશય ખર્ચમાં તફાવત: DeepSeek V4 Flash જેવા બજેટ-ફ્રેન્ડલી મોડલ્સ અને Claude Fable 5 જેવા પ્રીમિયમ મોડલ્સ વચ્ચે પ્રતિ-કાર્ય અમલીકરણમાં 800 ગણો ખર્ચનો તફાવત છે.

નવું AA બ્રીફકેસ બેન્ચમાર્ક વાસ્તવિક જ્ઞાનલક્ષી કાર્યમાં AI ના સંઘર્ષને દર્શાવે છે

નવું AA-Briefcase બેન્ચમાર્ક વાસ્તવિક જ્ઞાન કાર્ય (Knowledge Work) માં AI ના સંઘર્ષને ઉજાગર કરે છે

AA-Briefcase બેન્ચમાર્ક: વાસ્તવિક દુનિયાનું અનુકરણ

ટોચના મોડલ્સ પણ કેમ નિષ્ફળ જઈ રહ્યા છે

AI પ્રદર્શનની આર્થિક અસમાનતા

AI લેન્ડસ્કેપ માટેની અસરો

મુખ્ય તારણો

Continue reading

𝗔𝗜 𝗥𝗲𝗮𝘀𝗼𝗻𝗶𝗻𝗴 𝗔𝘀 𝗔𝗻 𝗘𝗾𝘂𝗶𝗹𝗶𝗯𝗿𝗶𝘂𝗺 𝗣𝗼𝗶𝗻𝘁

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

નિષ્ણાત કાર્યોમાં AI એજન્ટ્સનો સ્કોર ૦% રહ્યો

AI ટેકનોલોજી પ્રોડક્શનમાં નિષ્ફળ જાય છે: AI કોઓર્ડિનેશન ગેપને દૂર કરો

સેમ ઓલ્ટમેનનો દાવો: સ્કેલિંગના શંકાસ્પદ લોકોએ AI ના વિકાસને અવરોધ્યો છે