𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗦𝗰𝗼𝗿𝗲 𝗬𝗼𝘂 𝗡𝗲𝗲𝗱 𝗗𝗼𝗲𝘀𝗻'𝘁 𝗘𝘅𝗶𝘀𝘁

বেশিরভাগ LLM লিডারবোর্ড আপনাকে বিভ্রান্ত করে।

গত মাসে আমি একটি agentic pipeline-এর জন্য মডেলগুলো মূল্যায়ন করেছিলাম। আমার কোড জেনারেশন এবং মাল্টি-স্টেপ রিজনিং (multi-step reasoning) প্রয়োজন ছিল। আমি একটি জনপ্রিয় লিডারবোর্ডের শীর্ষ মডেলটি বেছে নিয়েছিলাম। আমি সেটি ব্যবহার শুরু করলাম। কিন্তু এটি সাধারণ টুল-ব্যবহারের (tool-use) কাজগুলোতে ব্যর্থ হলো।

লিডারবোর্ডের স্কোরটি সঠিক ছিল। কিন্তু আমার কাজের জন্য সেটি ছিল সম্পূর্ণ অকেজো।

পাবলিক বেঞ্চমার্কগুলো মডেলগুলোকে বিচ্ছিন্নভাবে পরীক্ষা করে। কিন্তু প্রোডাকশনে (production), আপনি এজেন্ট (agents) চালান। এজেন্টরা টুল কল করে, ওয়েব সার্চ করে এবং কোড এক্সিকিউট করে। স্ট্যান্ডার্ড বেঞ্চমার্কগুলো এগুলো পরিমাপ করতে পারে না।

LXT রিপোর্ট একটি বিশাল ব্যবধান দেখায়। ২০২৬ সালের ফেব্রুয়ারিতে, টুল অ্যাক্সেসসহ স্কোরগুলো ছিল এরকম:

• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%

টুল অ্যাক্সেস ছাড়া এই স্কোরগুলো কমে যায়। টুল-সহায়তা প্রাপ্ত (tool-assisted) এবং টুল-বিহীন স্কোরের মধ্যকার ব্যবধানই হলো এজেন্টের জন্য একমাত্র গুরুত্বপূর্ণ মেট্রিক।

যেসব মডেল ট্রাভিয়া (trivia) বা স্ট্যাটিক টেস্টে জয়ী হয়, সেগুলো প্রায়ই একটি মাত্র ফাংশন কল (function call) লিখতে ব্যর্থ হয়।

আপনি যদি এজেন্ট তৈরি করেন, তবে এই তিনটি বিষয়ে মনোযোগ দিন:

  1. Tool call reliability। বিভ্রান্তিকর পরিস্থিতিতে মডেলটি কি সঠিকভাবে কল ফরম্যাট করতে পারে? এটি কি ভুল থেকে রিকভার করতে পারে?
  2. Context window economics। কিছু টুল সেটআপ ১০ থেকে ৩২ গুণ বেশি টোকেন খরচ করে। একটি বড় কনটেক্সট উইন্ডো তখনই অপচয়, যদি এটি প্রতিটি কলের জন্য আপনার বাজেট শেষ করে দেয়।
  3. Multi-step planning। মডেলটি কি ৫-ধাপের একটি পরিকল্পনা ধরে রাখতে পারে? অনেক মডেল ৩ নম্বর ধাপের মধ্যেই মূল বিষয়টি হারিয়ে ফেলে।

পাবলিক লিডারবোর্ডকে একমাত্র নির্দেশিকা হিসেবে ব্যবহার করা বন্ধ করুন। এর পরিবর্তে নিচের কাজগুলো করুন:

• একটি মিনি-বেঞ্চমার্ক চালান। আপনার নিজস্ব লগ থেকে ২০ থেকে ৫০টি রিয়েল টুল কল ব্যবহার করুন। আপনার নির্দিষ্ট স্কিমার (schema) ওপর নির্ভুলতা পরিমাপ করুন। • এরর কন্ডিশন (error conditions) পরীক্ষা করুন। কোনো টুল যখন এরর বা খালি ডেটা প্রদান করে, তখন মডেলটি কেমন আচরণ করে তা দেখুন। • প্রতি টাস্কের খরচ পরিমাপ করুন। একটি মডেল যা ৫% উন্নত কিন্তু ৩ গুণ বেশি ব্যয়বহুল, সেটি প্রায়ই ভুল পছন্দ হয়ে দাঁড়ায়। • স্পেশালাইজড লিডারবোর্ড ব্যবহার করুন। সামগ্রিক র‍্যাঙ্কিংয়ের পরিবর্তে BenchLM.ai-তে টুল-ব্যবহার এবং কোডিং এজেন্টের স্কোর দেখুন।

#৩ র‍্যাঙ্কে থাকা একটি মডেল একটি সিঙ্গেল প্রম্পটের জন্য নিখুঁত হতে পারে। কিন্তু একটি এজেন্টের জন্য এটি বিপর্যয়কর হতে পারে।

আপনার নিজস্ব টুলগুলো পরীক্ষা করার জন্য একটি বিকেল ব্যয় করুন। এটি পরবর্তীতে আপনার এক সপ্তাহের ডিবাগিং (debugging) সময় বাঁচিয়ে দেবে।

আপনি কীভাবে আপনার মডেলগুলো মূল্যায়ন করছেন? কমেন্টে আমাকে জানান।

Source: https://dev.to/mrclaw207/the-llm-benchmark-score-youre-looking-at-probably-doesnt-mean-what-you-think-28ka

Optional learning community: https://t.me/GyaanSetuAi