புதிய AA Briefcase பெஞ்ச்மார்க், உண்மையான அறிவுசார் பணிகளில் AI சந்திக்கும் சவால்களை வெளிப்படுத்துகிறது

Translated for your language. Read the original.

AI-assisted draft.

நேற்று முன் தினம்3min read

In this article

புதிய AA-Briefcase Benchmark, உண்மையான அறிவுசார் பணிகளில் (Knowledge Work) AI சந்திக்கும் சவால்களை வெளிப்படுத்துகிறது

வழக்கமான மதிப்பீடுகளில் பெரிய மொழி மாதிரிகள் (Large Language Models - LLMs) பெருகிய முறையில் திறமையானவையாகத் தோன்றினாலும், தொழில்முறைச் சூழல்களின் சிக்கல்களைக் கையாள்வதற்கு அவை அடிப்படை ரீதியாகத் தயாராக இல்லை என்பதைப் புதிய தரவுகள் உணர்த்துகின்றன. ஒரு புரட்சிகரமான benchmark, வடிவங்களை அடையாளம் காண்பதற்கும் (pattern recognition), பல படிகளைக் கொண்ட, அதிகத் தகவல்கள் அடங்கிய அறிவுசார் பணிகளைச் (knowledge work) செயல்படுத்துவதற்கும் இடையே உள்ள மிகப்பெரிய இடைவெளியை வெளிப்படுத்தியுள்ளது.

AA-Briefcase Benchmark: நிஜ உலகத்தைப் பிரதிபலித்தல்

பாரம்பரிய AI benchmarks பெரும்பாலும் தனித்தனி கேள்விகள் அல்லது நிலையான தரவுத்தொகுப்புகளை (static datasets) நம்பியிருக்கின்றன, இவை நவீன அலுவலகங்களின் சிக்கலான யதார்த்தத்தைப் பிரதிபலிப்பதில்லை. இந்த இடைவெளியைக் குறைக்க, Artificial Analysis நிறுவனம் AA-Briefcase benchmark என்ற ஒரு கடுமையான சோதனை கட்டமைப்பை அறிமுகப்படுத்தியுள்ளது. இது பல வாரங்கள் நீடிக்கும் நீண்ட காலத் திட்டங்களைப் போன்ற சூழலைச் செயற்கையாக உருவாக்க வடிவமைக்கப்பட்டுள்ளது.

எளிய தூண்டுதல்களுக்கு (prompts) பதிலாக, Slack உரையாடல்கள், மின்னஞ்சல் தொடர்கள், கூட்டங்களின் குறிப்புகள் (meeting transcripts) மற்றும் பெரிய அளவிலான தரவு ஏற்றுமதிகள் (data exports) உள்ளிட்ட ஆயிரக்கணக்கான சிதறிய மூலக் கோப்புகளைக் கையாளுவதற்கு மாதிரிகளுக்கு (models) பணி வழங்கப்படுகிறது. இதற்கு மாதிரிகள் உயர்நிலைத் தர்க்கரீதியான சிந்தனையை (high-level reasoning) மேற்கொள்ளவும், வெவ்வேறு தரவுப் புள்ளிகளை ஒருங்கிணைக்கவும் (synthesize), மற்றும் மிகப்பெரிய, கட்டமைக்கப்படாத தரவுத்தொகுப்புகளில் (unstructured datasets) சூழலைப் (context) பராமரிக்கவும் தேவைப்படுகிறது—இவை ஆய்வாளர்கள், வழக்கறிஞர்கள் மற்றும் பொறியாளர்களுக்கு அவசியமான திறன்களாகும்.

சிறந்த மாதிரிகள் கூட ஏன் தோல்வியடைகின்றன?

பணியிடங்களில் AI-இன் உடனடித் தன்னாட்சியை (autonomy) எதிர்பார்க்கும் மக்களுக்கு இந்த முடிவுகள் ஒரு எச்சரிக்கையாக உள்ளன. சோதிக்கப்பட்டவற்றிலேயே மிகவும் மேம்பட்ட மாதிரியான Anthropic’s Claude Fable 5, வழங்கப்பட்ட பணிகளில் வெறும் 3 சதவீதத்தை மட்டுமே முழுமையாகத் தீர்க்க முடிந்தது. 91 குறிப்பிட்ட பணிகளில் 31 பணிகளில், எந்தவொரு மாதிரியும் 50 சதவீதத் தேர்ச்சி விகிதத்தைக் கூட எட்டவில்லை என்பதை இந்த benchmark வெளிப்படுத்தியுள்ளது.

நுண்ணறிவு அதிகரிக்கும் போது AI எவ்வாறு தோல்வியடைகிறது என்பதில் ஒரு சுவாரஸ்யமான மாற்றத்தை இந்த ஆராய்ச்சி சுட்டிக்காட்டுகிறது. "பலவீனமான" மாதிரிகள் "சத்தமான" (loud) தோல்விகளைச் சந்திக்கின்றன: அவை அடிப்படைச் செயல்பாடுகளிலேயே தடுமாறுகின்றன, தொடர்புடைய கோப்புகளை முற்றிலும் தவறவிடுகின்றன அல்லது அடிப்படை ரீதியாகப் பயன்படுத்த முடியாத முடிவுகளைத் தருகின்றன. இதற்கு நேர்மாறாக, Claude Fable 5 போன்ற "வலிமையான" மாதிரிகள் மிகவும் "அமைதியாக" (quietly) தோல்வியடைகின்றன. இந்த உயர்நிலை மாதிரிகள் வெளிப்படையான தேவைகளைப் பூர்த்தி செய்து, தொழில்முறை வடிவமைப்பைப் பராமரிக்கின்றன, ஆனால் பல தொடர்பற்ற ஆதாரங்களிலிருந்து தகவல்களைத் திரட்டுவதன் மூலம் மட்டுமே கண்டறியக்கூடிய நுணுக்கமான விவரங்களைத் தவறவிடுவதன் மூலம், ஆழமான தர்க்கரீதியான சோதனையில் தோல்வியடைகின்றன.

AI செயல்திறனின் பொருளாதார ஏற்றத்தாழ்வு

தொழில்நுட்பக் குறைபாடுகளைத் தாண்டி, தற்போதைய LLM சூழலில் உள்ள மிகப்பெரிய பொருளாதாரப் பிரிவை இந்த benchmark முன்னிலைப்படுத்துகிறது. ஒரு பணியை முடிப்பதற்கான செலவைக் கணக்கிடும்போது, மாதிரிகளுக்கு இடையே வியக்கத்தக்க விலை இடைவெளி உள்ளது.

செயல்திறன் மிகப்பெரிய அளவில் மாறுபடுகிறது: DeepSeek V4 Flash ஒரு பணியைச் செய்ய தோராயமாக $0.04 செலவு செய்தது, அதேசமயம் மிகச்சிறந்த செயல்பாட்டைக் கொண்ட Claude Fable 5 ஒரு பணிக்கு $31-க்கும் அதிகமான செலவைச் சந்தித்தது. இது 800 மடங்கு விலை வித்தியாசத்தைக் குறிக்கிறது, இது நீடிக்க முடியாத செயல்பாட்டுச் செலவுகளைச் சந்திக்காமல் AI முகவர்களை (AI agents) விரிவாக்க முயற்சிக்கும் நிறுவனர்கள் மற்றும் பெருநிறுவனங்களுக்கு ஒரு குறிப்பிடத்தக்க சவாலை ஏற்படுத்துகிறது.

AI சூழலுக்கான தாக்கங்கள்

AA-Briefcase கண்டுபிடிப்புகள் "AI Agent" குறித்த மிகைப்படுத்தப்பட்ட எதிர்பார்ப்புகளுக்கு (hype cycle) ஒரு யதார்த்தமான சரிபார்ப்பாக அமைகின்றன. AI ஒரு உரையாடல் உதவியாளரிலிருந்து நம்பகமான அறிவுத் தொழிலாளராக மாற வேண்டுமானால், மாதிரிகள் வெறும் தகவல்களைத் தேடி எடுப்பதையும் தாண்டி, ஆழமான மற்றும் சூழல் சார்ந்த ஒருங்கிணைப்புத் திறனை நோக்கி வளர வேண்டும். மென்பொருள் உருவாக்குநர்கள் மற்றும் தொழில்நுட்பத் தலைவர்களுக்கு, இலக்கு என்பது இனி அளவுருக்களின் (parameter counts) எண்ணிக்கையை அதிகரிப்பது மட்டுமல்ல, துல்லியமான மற்றும் குறைந்த கூடுதல் செலவில், சிதறிய மற்றும் நீண்ட காலத் தர்க்கரீதியான பணிகளைக் கையாளும் திறனை மேம்படுத்துவதாகும்.

முக்கியக் கருத்துக்கள்

மிகப்பெரிய செயல்திறன் இடைவெளி: Claude Fable 5 போன்ற அதிநவீன மாதிரிகள் கூட, சிக்கலான, பல ஆதாரங்களைக் கொண்ட அறிவு சார்ந்த பணிகளில் 3% முழுமையான வெற்றி விகிதத்தையே எட்டுகின்றன.
பிழைகளின் பரிணாமம்: குறைந்த தரத்திலான மாதிரிகள் அடிப்படைச் செயல்பாடுகளில் தோல்வியடையும் போது, மேம்பட்ட மாதிரிகள் சிதறிய தரவுத்தொகுப்புகளில் மறைந்துள்ள நுணுக்கமான விவரங்களைத் தவறவிடுவதன் மூலம் "அமைதியான" (quiet) பிழைகளைச் செய்கின்றன.
தீவிரமான செலவு வேறுபாடு: DeepSeek V4 Flash போன்ற சிக்கனமான மாதிரிகளுக்கும், Claude Fable 5 போன்ற பிரீமியம் மாதிரிகளுக்கும் இடையிலான ஒரு பணிச் செயல்பாட்டின் செலவில் 800 மடங்கு வேறுபாடு உள்ளது.

புதிய AA Briefcase பெஞ்ச்மார்க், உண்மையான அறிவுசார் பணிகளில் AI சந்திக்கும் சவால்களை வெளிப்படுத்துகிறது

புதிய AA-Briefcase Benchmark, உண்மையான அறிவுசார் பணிகளில் (Knowledge Work) AI சந்திக்கும் சவால்களை வெளிப்படுத்துகிறது

AA-Briefcase Benchmark: நிஜ உலகத்தைப் பிரதிபலித்தல்

சிறந்த மாதிரிகள் கூட ஏன் தோல்வியடைகின்றன?

AI செயல்திறனின் பொருளாதார ஏற்றத்தாழ்வு

AI சூழலுக்கான தாக்கங்கள்

முக்கியக் கருத்துக்கள்

Continue reading

ஒரு சமநிலை புள்ளியாக AI பகுத்தறிவு

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗦𝗰𝗼𝗿𝗲𝗱 𝟬% 𝗢𝗻 𝗘𝘅𝗽𝗲𝗿𝘁 𝗧𝗮𝘀𝗸𝘀

AI தொழில்நுட்பம் உற்பத்தியில் தோல்வியடைகிறது: AI ஒருங்கிணைப்பு இடைவெளியைக் குறையுங்கள்

அளவீடு குறித்த சந்தேகவாதிகள் AI வளர்ச்சியைத் தடுத்ததாக சாம் ஆல்ட்மேன் கூறுகிறார்