New AA Briefcase Benchmark Reveals AI’s Struggle With Real Knowledge Work

Translated for your language. Read the original.

AI-assisted draft.

മിനിഞ്ഞാന്ന്3min read

In this article

പുതിയ AA-Briefcase ബെഞ്ച്മാർക്ക് യഥാർത്ഥ അറിവ് അധിഷ്ഠിത ജോലികളിൽ (knowledge work) AI നേരിടുന്ന വെല്ലുവിളികൾ വെളിപ്പെടുത്തുന്നു

സാധാരണ മൂല്യനിർണ്ണയങ്ങളിൽ (evaluations) ലാർജ് ലാംഗ്വേജ് മോഡലുകൾ (LLMs) കൂടുതൽ കഴിവുള്ളവരായി കാണപ്പെടുമെങ്കിലും, പ്രൊഫഷണൽ സാഹചര്യങ്ങളിലെ സങ്കീർണ്ണതകൾ കൈകാര്യം ചെയ്യാൻ അവ അടിസ്ഥാനപരമായി സജ്ജമല്ലെന്നാണ് പുതിയ വിവരങ്ങൾ സൂചിപ്പിക്കുന്നത്. പാറ്റേൺ തിരിച്ചറിയുന്നതിനും (pattern recognition), വിവരങ്ങൾ നിറഞ്ഞതും ബഹുതലങ്ങളുള്ളതുമായ അറിവ് അധിഷ്ഠിത ജോലികൾ (knowledge work) യഥാർത്ഥത്തിൽ നിർവ്വഹിക്കുന്നതിനും ഇടയിലുള്ള വലിയൊരു വിടവ് ഒരു പുതിയ ബെഞ്ച്മാർക്ക് വെളിപ്പെടുത്തിയിരിക്കുന്നു.

AA-Briefcase ബെഞ്ച്മാർക്ക്: യഥാർത്ഥ ലോകത്തെ അനുകരിക്കുന്നു

പരമ്പരാഗത AI ബെഞ്ച്മാർക്കുകൾ പലപ്പോഴും ഒറ്റപ്പെട്ട ചോദ്യങ്ങളിലോ അല്ലെങ്കിൽ ആധുനിക ഓഫീസുകളിലെ സങ്കീർണ്ണമായ യാഥാർത്ഥ്യങ്ങളെ പ്രതിഫലിപ്പിക്കാത്ത സ്റ്റാറ്റിക് ഡാറ്റാസെറ്റുകളിലോ ആണ് ആശ്രയിക്കുന്നത്. ഈ വിടവ് നികത്തുന്നതിനായി, Artificial Analysis AA-Briefcase ബെഞ്ച്മാർക്ക് അവതരിപ്പിച്ചു. ദീർഘകാലം നീണ്ടുനിൽക്കുന്നതും ആഴ്ചകളോളം പ്രോജക്റ്റുകൾ നടത്തുന്നതുമായ സാഹചര്യങ്ങളെ അനുകരിക്കാൻ രൂപകൽപ്പന ചെയ്ത കർശനമായ ഒരു പരിശോധനാ രീതിയാണിത്.

ലളിതമായ പ്രോംപ്റ്റുകൾക്ക് പകരം, Slack threads, ഇമെയിൽ ശൃംഖലകൾ, മീറ്റിംഗ് ട്രാൻസ്ക്രിപ്റ്റുകൾ, വലിയ തോതിലുള്ള ഡാറ്റാ എക്സ്പോർട്ടുകൾ എന്നിവയുൾപ്പെടെ ആയിരക്കണക്കിന് വിഭജിക്കപ്പെട്ട സോഴ്സ് ഫയലുകൾ കൈകാര്യം ചെയ്യാൻ മോഡലുകൾക്ക് നിർദ്ദേശം നൽകുന്നു. ഇതിനായി മോഡലുകൾ ഉയർന്ന തലത്തിലുള്ള യുക്തിചിന്ത (reasoning) നടത്തുകയും, വ്യത്യസ്തമായ ഡാറ്റാ പോയിന്റുകളെ സംയോജിപ്പിക്കുകയും, വലിയ അളവിലുള്ള അസംഘടിത ഡാറ്റാസെറ്റുകളിൽ (unstructured datasets) സന്ദർഭങ്ങൾ കൃത്യമായി നിലനിർത്തുകയും വേണം—വിശകലന വിദഗ്ധർക്കും (analysts), അഭിഭാഷകർക്കും, എഞ്ചിനീയർമാർക്കും അത്യാവശ്യമായ കഴിവുകളാണിവ.

മികച്ച മോഡലുകൾ പോലും പരാജയപ്പെടുന്നത് എന്തുകൊണ്ട്?

തൊഴിലിടങ്ങളിൽ AI-യുടെ പൂർണ്ണമായ സ്വയംഭരണാധികാരം (autonomy) പ്രതീക്ഷിക്കുന്നവർക്ക് ഈ ഫലങ്ങൾ നിരാശാജനകമാണ്. പരിശോധിക്കപ്പെട്ടതിൽ വെച്ച് ഏറ്റവും നൂതനമായ മോഡലായ Anthropic’s Claude Fable 5 പോലും നൽകപ്പെട്ട ജോലികളിൽ 3 ശതമാനം മാത്രമാണ് പൂർണ്ണമായി നിർവ്വഹിച്ചത്. 91 പ്രത്യേക ജോലികളിൽ 31 എണ്ണത്തിലും ഒരു മോഡലിനും പോലും 50 ശതമാനം വിജയിക്കാനുള്ള ശേഷി ഉണ്ടായിരുന്നില്ലെന്ന് ബെഞ്ച്മാർക്ക് വെളിപ്പെടുത്തി.

ബുദ്ധിശക്തി വർദ്ധിക്കുന്നതിനനുസരിച്ച് AI പരാജയപ്പെടുന്ന രീതിയിൽ രസകരമായ ഒരു മാറ്റം ഈ ഗവേഷണം ചൂണ്ടിക്കാട്ടുന്നു. "ദുർബലമായ" മോഡലുകൾ "ശബ്ദായമാനമായ" (loud) പരാജയങ്ങളാണ് നേരിടുന്നത്: അവ അടിസ്ഥാനപരമായ കാര്യങ്ങളിൽ പോലും പരാജയപ്പെടുന്നു, പ്രസക്തമായ ഫയലുകൾ പൂർണ്ണമായും വിട്ടുപോകുന്നു, അല്ലെങ്കിൽ ഉപയോഗശൂന്യമായ ഔട്ട്പുട്ടുകൾ നൽകുന്നു. ഇതിനു വിപരീതമായി, Claude Fable 5 പോലുള്ള "ശക്തമായ" മോഡലുകൾ കൂടുതൽ "നിശബ്ദമായി" പരാജയപ്പെടുന്നു. ഈ ഉയർന്ന നിലവാരമുള്ള മോഡലുകൾ വ്യക്തമായ ആവശ്യകതകൾ നിറവേറ്റുകയും പ്രൊഫഷണൽ ഫോർമാറ്റിംഗ് നിലനിർത്തുകയും ചെയ്യുന്നുണ്ടെങ്കിലും, പരസ്പരം ബന്ധമില്ലാത്ത ഒന്നിലധികം സ്രോതസ്സുകളിൽ നിന്നുള്ള വിവരങ്ങൾ കൂട്ടിച്ചേർത്താൽ മാത്രം കണ്ടെത്താൻ കഴിയുന്ന സൂക്ഷ്മമായ കാര്യങ്ങൾ ശ്രദ്ധിക്കാതെ പോകുന്നത് വഴി അവ ആഴത്തിലുള്ള യുക്തിചിന്താ പരിശോധനയിൽ പരാജയപ്പെടുന്നു.

AI പ്രകടനത്തിന്റെ സാമ്പത്തിക അസമത്വം

സാങ്കേതികമായ പോരായ്മകൾക്ക് പുറമെ, നിലവിലെ LLM മേഖലയിലെ വലിയ സാമ്പത്തിക വ്യത്യാസവും ഈ ബെഞ്ച്മാർക്ക് എടുത്തുകാണിക്കുന്നു. ജോലികൾ പൂർത്തിയാക്കുന്നതിനുള്ള ചിലവ് കണക്കാക്കുമ്പോൾ മോഡലുകൾ തമ്മിൽ വലിയ വില വ്യത്യാസമുണ്ട്.

Efficiency varies wildly: DeepSeek V4 Flash completed tasks at a cost of approximately $0.04 per task, whereas the top-performing Claude Fable 5 cost upwards of $31 per task. This represents an 800x price difference, presenting a significant challenge for founders and enterprises trying to scale AI agents without incurring unsustainable operational costs.

Implications for the AI Landscape

The AA-Briefcase findings serve as a reality check for the "AI Agent" hype cycle. For AI to transition from a conversational assistant to a reliable knowledge worker, models must evolve beyond simple retrieval to deep, cross-contextual synthesis. For developers and tech leaders, the goal is no longer just increasing parameter counts, but improving the ability to handle fragmented, long-horizon reasoning tasks with higher precision and lower marginal costs.

Key Takeaways

Massive Performance Gap: Even frontier models like Claude Fable 5 only achieve a 3% full success rate on complex, multi-source knowledge tasks.
Evolution of Errors: While low-tier models fail on basic execution, advanced models fail through "quiet" errors, missing nuanced details hidden across fragmented datasets.
Extreme Cost Variance: There is an 800x cost disparity in per-task execution between budget-friendly models like DeepSeek V4 Flash and premium models like Claude Fable 5.

New AA Briefcase Benchmark Reveals AI’s Struggle With Real Knowledge Work

പുതിയ AA-Briefcase ബെഞ്ച്മാർക്ക് യഥാർത്ഥ അറിവ് അധിഷ്ഠിത ജോലികളിൽ (knowledge work) AI നേരിടുന്ന വെല്ലുവിളികൾ വെളിപ്പെടുത്തുന്നു

AA-Briefcase ബെഞ്ച്മാർക്ക്: യഥാർത്ഥ ലോകത്തെ അനുകരിക്കുന്നു

മികച്ച മോഡലുകൾ പോലും പരാജയപ്പെടുന്നത് എന്തുകൊണ്ട്?

AI പ്രകടനത്തിന്റെ സാമ്പത്തിക അസമത്വം

Implications for the AI Landscape

Key Takeaways

Continue reading

𝗔𝗜 𝗥𝗲𝗮𝘀𝗼𝗻𝗶𝗻𝗴 𝗔𝘀 𝗔𝗻 𝗘𝗾𝘂𝗶𝗹𝗶𝗯𝗿𝗶𝘂𝗺 𝗣𝗼𝗶𝗻𝘁

MA ProofBench: ഗണിത വിശകലനത്തിൽ GPT 5.5 16% കൈവരിച്ചു

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗦𝗰𝗼𝗿𝗲𝗱 𝟬% 𝗢𝗻 𝗘𝘅𝗽𝗲𝗿𝘁 𝗧𝗮𝘀𝗸𝘀

AI സാങ്കേതികവിദ്യ പ്രൊഡക്ഷനിൽ പരാജയപ്പെടുന്നു: AI ഏകോപന വിടവ് നികത്തുക

Sam Altman Claims Scaling Skeptics Held Back AI Development