உங்களுக்குத் தேவையான LLM பெஞ்ச்மார்க் ஸ்கோர் இல்லை

📅4 hours ago⏱2 min read

உங்களுக்குத் தேவையான LLM பெஞ்ச்மார்க் மதிப்பெண் இல்லை

பெரும்பாலான LLM லீடர்போர்டுகள் உங்களுக்குப் பொய் சொல்கின்றன.

கடந்த மாதம் ஒரு ஏஜென்டிக் பைப்புலைனுக்காக (agentic pipeline) நான் மாடல்களை மதிப்பீடு செய்தேன். எனக்கு கோட் உருவாக்கம் (code generation) மற்றும் பல படிநிலைகளைக் கொண்ட தர்க்கரீதியான சிந்தனை (multi-step reasoning) தேவைப்பட்டது. ஒரு பிரபலமான லீடர்போர்டில் முதலிடத்தில் இருந்த மாடலைத் தேர்ந்தெடுத்தேன். அதைச் செயல்படுத்தினேன். ஆனால், அது அடிப்படை கருவிப் பயன்பாட்டு (tool-use) பணிகளில் தோல்வியடைந்தது.

லீடர்போர்டு மதிப்பெண் உண்மையானதுதான். ஆனால் அது எனது வேலைக்குத் தேவையில்லாத ஒன்றாக இருந்தது.

பொதுவான பெஞ்ச்மார்க்குகள் மாடல்களைத் தனித்துச் சோதிக்கின்றன. தயாரிப்பு நிலையில் (production), நீங்கள் ஏஜென்ட்களை (agents) இயக்குவீர்கள். ஏஜென்ட்கள் கருவிகளை அழைக்கும் (call tools), இணையத்தில் தேடும் மற்றும் கோடை இயக்கும். சாதாரண பெஞ்ச்மார்க்குகள் இதை அளவிடுவதில்லை.

LXT அறிக்கைகள் ஒரு மிகப்பெரிய இடைவெளியைக் காட்டுகின்றன. பிப்ரவரி 2026-இல், கருவி அணுகலுடன் (tool access), மதிப்பெண்கள் இவ்வாறு இருந்தன:

• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%

கருவி அணுகல் இல்லாமல், இந்த மதிப்பெண்கள் குறைகின்றன. கருவி உதவியுடன் பெறும் மதிப்பெண்களுக்கும், கருவி இல்லாத மதிப்பெண்களுக்கும் இடையிலான இடைவெளியே ஏஜென்ட்களுக்குத் தேவையான முக்கியமான அளவுகோலாகும்.

பொது அறிவுத் தகவல்கள் (trivia) அல்லது நிலையான சோதனைகளில் (static tests) வெற்றி பெறும் மாடல்கள், பெரும்பாலும் ஒரு சிறிய ஃபங்ஷன் கால் (function call) எழுதுவதிலேயே தோல்வியடைகின்றன.

நீங்கள் ஏஜென்ட்களை உருவாக்குகிறீர்கள் என்றால், இந்த மூன்று விஷயங்களில் கவனம் செலுத்துங்கள்:

கருவி அழைப்பு நம்பகத்தன்மை (Tool call reliability). கவனச்சிதறல்களின் போதும் மாடல் அழைப்புகளைச் சரியாக வடிவமைக்கிறதா? பிழைகளிலிருந்து மீண்டு வர முடியுமா?
கான்டெக்ஸ்ட் விண்டோ பொருளாதாரம் (Context window economics). சில கருவி அமைப்புகள் 10 முதல் 32 மடங்கு கூடுதல் டோக்கன்களை (tokens) செலவிடுகின்றன. ஒவ்வொரு அழைப்பிலும் உங்கள் பட்ஜெட்டைத் தீர்த்துவிடுவதானால், ஒரு பெரிய கான்டெக்ஸ்ட் விண்டோ பயனற்றது.
பல படிநிலைத் திட்டமிடல் (Multi-step planning). மாடலால் 5-படித் திட்டத்தைத் தக்கவைக்க முடியுமா? பல மாடல்கள் 3-வது படிநிலையிலேயே வழிதவறிவிடுகின்றன.

பொதுவான லீடர்போர்டுகளை மட்டுமே உங்கள் வழிகாட்டியாகப் பயன்படுத்துவதை நிறுத்துங்கள். அதற்குப் பதிலாக இதைச் செய்யுங்கள்:

• ஒரு சிறிய பெஞ்ச்மார்க்கை (mini-benchmark) நடத்துங்கள். உங்கள் சொந்த லாக்ஸிலிருந்து (logs) 20 முதல் 50 உண்மையான கருவி அழைப்புகளைப் பயன்படுத்துங்கள். உங்கள் குறிப்பிட்ட ஸ்கீமாவில் (schema) துல்லியத்தை அளவிடுங்கள். • பிழை நிலைகளைச் சோதியுங்கள் (Test error conditions). ஒரு கருவி பிழையைத் தரும்போதோ அல்லது காலியான தரவைத் தரும்போதோ மாடல் எவ்வாறு செயல்படுகிறது என்று பாருங்கள். • ஒரு பணிக்குத் தேவைப்படும் செலவை அளவிடுங்கள். 5% சிறப்பாக இருந்து, ஆனால் 3 மடங்கு அதிகச் செலவாகும் ஒரு மாடல் பெரும்பாலும் தவறான தேர்வாகவே இருக்கும். • சிறப்பு லீடர்போர்டுகளைப் பயன்படுத்துங்கள். ஒட்டுமொத்த தரவரிசையைப் பார்ப்பதற்குப் பதிலாக, BenchLM.ai இல் கருவிப் பயன்பாடு மற்றும் கோடிங் ஏஜென்ட் மதிப்பெண்களைப் பாருங்கள்.

#3 தரவரிசையில் உள்ள ஒரு மாடல் ஒரு தனிப்பட்ட ப்ராம்ப்ட்டிற்கு (prompt) சரியாக இருக்கலாம். ஆனால் ஒரு ஏஜென்ட்டிற்கு அது பேரழிவாக இருக்கலாம்.

உங்கள் சொந்தக் கருவிகளைச் சோதிக்க ஒரு மதிய நேரத்தைச் செலவிடுங்கள். அது பிற்காலத்தில் ஒரு வார கால டீபக்கிங் (debugging) நேரத்தைச் சேமிக்கும்.

உங்கள் மாடல்களை நீங்கள் எவ்வாறு மதிப்பீடு செய்கிறீர்கள்? பதில்களில் எனக்குத் தெரியப்படுத்துங்கள்.

Source: https://dev.to/mrclaw207/the-llm-benchmark-score-youre-looking-at-probably-doesnt-mean-what-you-think-28ka

Optional learning community: https://t.me/GyaanSetuAi

உங்களுக்குத் தேவையான LLM பெஞ்ச்மார்க் ஸ்கோர் இல்லை

Continue reading

𝗦𝘁𝗼𝗽 𝗔𝘀𝗸𝗶𝗻𝗴 𝗪𝗵𝗶𝗰𝗵 𝗟𝗟𝗠 𝗜𝘀 𝗕𝗲𝘀𝘁

𝗟𝗟𝗠 𝗚𝗔𝗧𝗘𝗪𝗔𝗬𝗦 𝗙𝗢𝗥 𝗔𝗜 𝗦𝗔𝗔𝗦

மிக வலிமையான மாடல் பற்றிய கட்டுக்கதை

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲