புதிய AA-Briefcase Benchmark, உண்மையான அறிவுசார் பணிகளில் (Knowledge Work) AI சந்திக்கும் சவால்களை வெளிப்படுத்துகிறது
வழக்கமான மதிப்பீடுகளில் பெரிய மொழி மாதிரிகள் (Large Language Models - LLMs) பெருகிய முறையில் திறமையானவையாகத் தோன்றினாலும், தொழில்முறைச் சூழல்களின் சிக்கல்களைக் கையாள்வதற்கு அவை அடிப்படை ரீதியாகத் தயாராக இல்லை என்பதைப் புதிய தரவுகள் உணர்த்துகின்றன. ஒரு புரட்சிகரமான benchmark, வடிவங்களை அடையாளம் காண்பதற்கும் (pattern recognition), பல படிகளைக் கொண்ட, அதிகத் தகவல்கள் அடங்கிய அறிவுசார் பணிகளைச் (knowledge work) செயல்படுத்துவதற்கும் இடையே உள்ள மிகப்பெரிய இடைவெளியை வெளிப்படுத்தியுள்ளது.
AA-Briefcase Benchmark: நிஜ உலகத்தைப் பிரதிபலித்தல்
பாரம்பரிய AI benchmarks பெரும்பாலும் தனித்தனி கேள்விகள் அல்லது நிலையான தரவுத்தொகுப்புகளை (static datasets) நம்பியிருக்கின்றன, இவை நவீன அலுவலகங்களின் சிக்கலான யதார்த்தத்தைப் பிரதிபலிப்பதில்லை. இந்த இடைவெளியைக் குறைக்க, Artificial Analysis நிறுவனம் AA-Briefcase benchmark என்ற ஒரு கடுமையான சோதனை கட்டமைப்பை அறிமுகப்படுத்தியுள்ளது. இது பல வாரங்கள் நீடிக்கும் நீண்ட காலத் திட்டங்களைப் போன்ற சூழலைச் செயற்கையாக உருவாக்க வடிவமைக்கப்பட்டுள்ளது.
எளிய தூண்டுதல்களுக்கு (prompts) பதிலாக, Slack உரையாடல்கள், மின்னஞ்சல் தொடர்கள், கூட்டங்களின் குறிப்புகள் (meeting transcripts) மற்றும் பெரிய அளவிலான தரவு ஏற்றுமதிகள் (data exports) உள்ளிட்ட ஆயிரக்கணக்கான சிதறிய மூலக் கோப்புகளைக் கையாளுவதற்கு மாதிரிகளுக்கு (models) பணி வழங்கப்படுகிறது. இதற்கு மாதிரிகள் உயர்நிலைத் தர்க்கரீதியான சிந்தனையை (high-level reasoning) மேற்கொள்ளவும், வெவ்வேறு தரவுப் புள்ளிகளை ஒருங்கிணைக்கவும் (synthesize), மற்றும் மிகப்பெரிய, கட்டமைக்கப்படாத தரவுத்தொகுப்புகளில் (unstructured datasets) சூழலைப் (context) பராமரிக்கவும் தேவைப்படுகிறது—இவை ஆய்வாளர்கள், வழக்கறிஞர்கள் மற்றும் பொறியாளர்களுக்கு அவசியமான திறன்களாகும்.
சிறந்த மாதிரிகள் கூட ஏன் தோல்வியடைகின்றன?
பணியிடங்களில் AI-இன் உடனடித் தன்னாட்சியை (autonomy) எதிர்பார்க்கும் மக்களுக்கு இந்த முடிவுகள் ஒரு எச்சரிக்கையாக உள்ளன. சோதிக்கப்பட்டவற்றிலேயே மிகவும் மேம்பட்ட மாதிரியான Anthropic’s Claude Fable 5, வழங்கப்பட்ட பணிகளில் வெறும் 3 சதவீதத்தை மட்டுமே முழுமையாகத் தீர்க்க முடிந்தது. 91 குறிப்பிட்ட பணிகளில் 31 பணிகளில், எந்தவொரு மாதிரியும் 50 சதவீதத் தேர்ச்சி விகிதத்தைக் கூட எட்டவில்லை என்பதை இந்த benchmark வெளிப்படுத்தியுள்ளது.
நுண்ணறிவு அதிகரிக்கும் போது AI எவ்வாறு தோல்வியடைகிறது என்பதில் ஒரு சுவாரஸ்யமான மாற்றத்தை இந்த ஆராய்ச்சி சுட்டிக்காட்டுகிறது. "பலவீனமான" மாதிரிகள் "சத்தமான" (loud) தோல்விகளைச் சந்திக்கின்றன: அவை அடிப்படைச் செயல்பாடுகளிலேயே தடுமாறுகின்றன, தொடர்புடைய கோப்புகளை முற்றிலும் தவறவிடுகின்றன அல்லது அடிப்படை ரீதியாகப் பயன்படுத்த முடியாத முடிவுகளைத் தருகின்றன. இதற்கு நேர்மாறாக, Claude Fable 5 போன்ற "வலிமையான" மாதிரிகள் மிகவும் "அமைதியாக" (quietly) தோல்வியடைகின்றன. இந்த உயர்நிலை மாதிரிகள் வெளிப்படையான தேவைகளைப் பூர்த்தி செய்து, தொழில்முறை வடிவமைப்பைப் பராமரிக்கின்றன, ஆனால் பல தொடர்பற்ற ஆதாரங்களிலிருந்து தகவல்களைத் திரட்டுவதன் மூலம் மட்டுமே கண்டறியக்கூடிய நுணுக்கமான விவரங்களைத் தவறவிடுவதன் மூலம், ஆழமான தர்க்கரீதியான சோதனையில் தோல்வியடைகின்றன.
AI செயல்திறனின் பொருளாதார ஏற்றத்தாழ்வு
தொழில்நுட்பக் குறைபாடுகளைத் தாண்டி, தற்போதைய LLM சூழலில் உள்ள மிகப்பெரிய பொருளாதாரப் பிரிவை இந்த benchmark முன்னிலைப்படுத்துகிறது. ஒரு பணியை முடிப்பதற்கான செலவைக் கணக்கிடும்போது, மாதிரிகளுக்கு இடையே வியக்கத்தக்க விலை இடைவெளி உள்ளது.
செயல்திறன் மிகப்பெரிய அளவில் மாறுபடுகிறது: DeepSeek V4 Flash ஒரு பணியைச் செய்ய தோராயமாக $0.04 செலவு செய்தது, அதேசமயம் மிகச்சிறந்த செயல்பாட்டைக் கொண்ட Claude Fable 5 ஒரு பணிக்கு $31-க்கும் அதிகமான செலவைச் சந்தித்தது. இது 800 மடங்கு விலை வித்தியாசத்தைக் குறிக்கிறது, இது நீடிக்க முடியாத செயல்பாட்டுச் செலவுகளைச் சந்திக்காமல் AI முகவர்களை (AI agents) விரிவாக்க முயற்சிக்கும் நிறுவனர்கள் மற்றும் பெருநிறுவனங்களுக்கு ஒரு குறிப்பிடத்தக்க சவாலை ஏற்படுத்துகிறது.
AI சூழலுக்கான தாக்கங்கள்
AA-Briefcase கண்டுபிடிப்புகள் "AI Agent" குறித்த மிகைப்படுத்தப்பட்ட எதிர்பார்ப்புகளுக்கு (hype cycle) ஒரு யதார்த்தமான சரிபார்ப்பாக அமைகின்றன. AI ஒரு உரையாடல் உதவியாளரிலிருந்து நம்பகமான அறிவுத் தொழிலாளராக மாற வேண்டுமானால், மாதிரிகள் வெறும் தகவல்களைத் தேடி எடுப்பதையும் தாண்டி, ஆழமான மற்றும் சூழல் சார்ந்த ஒருங்கிணைப்புத் திறனை நோக்கி வளர வேண்டும். மென்பொருள் உருவாக்குநர்கள் மற்றும் தொழில்நுட்பத் தலைவர்களுக்கு, இலக்கு என்பது இனி அளவுருக்களின் (parameter counts) எண்ணிக்கையை அதிகரிப்பது மட்டுமல்ல, துல்லியமான மற்றும் குறைந்த கூடுதல் செலவில், சிதறிய மற்றும் நீண்ட காலத் தர்க்கரீதியான பணிகளைக் கையாளும் திறனை மேம்படுத்துவதாகும்.
முக்கியக் கருத்துக்கள்
- மிகப்பெரிய செயல்திறன் இடைவெளி: Claude Fable 5 போன்ற அதிநவீன மாதிரிகள் கூட, சிக்கலான, பல ஆதாரங்களைக் கொண்ட அறிவு சார்ந்த பணிகளில் 3% முழுமையான வெற்றி விகிதத்தையே எட்டுகின்றன.
- பிழைகளின் பரிணாமம்: குறைந்த தரத்திலான மாதிரிகள் அடிப்படைச் செயல்பாடுகளில் தோல்வியடையும் போது, மேம்பட்ட மாதிரிகள் சிதறிய தரவுத்தொகுப்புகளில் மறைந்துள்ள நுணுக்கமான விவரங்களைத் தவறவிடுவதன் மூலம் "அமைதியான" (quiet) பிழைகளைச் செய்கின்றன.
- தீவிரமான செலவு வேறுபாடு: DeepSeek V4 Flash போன்ற சிக்கனமான மாதிரிகளுக்கும், Claude Fable 5 போன்ற பிரீமியம் மாதிரிகளுக்கும் இடையிலான ஒரு பணிச் செயல்பாட்டின் செலவில் 800 மடங்கு வேறுபாடு உள்ளது.