২০২৬ সালে LLM-as-judge এর নির্ভরযোগ্যতা

LLM-as-judge টুলগুলো বর্তমানে বেশিরভাগ লিডারবোর্ড এবং ইভ্যালুয়েশন পোস্ট পরিচালনা করে।

২০২৬ সালের জুন মাসের আটটি নতুন গবেষণা একটি বিশাল সমস্যা প্রকাশ করেছে। এই গবেষণাগুলো প্রকাশ করেছে যে AI বিচারকরা প্রায়শই নিজেদের সিদ্ধান্তের সাথে দ্বিমত পোষণ করে। তারা অনেকটা মুদ্রা নিক্ষেপের (coin flip) মতো কাজ করে।

ডেটা তিনটি প্রধান ব্যর্থতা নির্দেশ করে:

• নিম্ন নির্ভরযোগ্যতা (Low Reliability): একটি গবেষণায় ২৯টি টাস্কের ওপর দুটি OpenAI বিচারককে পরীক্ষা করা হয়েছে। তারা প্রতিটি পরীক্ষা ৫০ বার পুনরাবৃত্তি করেছে। ফলাফলগুলো এতটাই অসামঞ্জস্যপূর্ণ ছিল যে গবেষকরা একে "The Coin Flip Judge" বলে অভিহিত করেছেন। একটি মাত্রবার চালানো সিদ্ধান্তের ফলাফল মূলত বিভ্রান্তিকর (noise)।

• কম্পিউট সেনসিটিভিটি (Compute Sensitivity): পরীক্ষার সময় আপনি কতটা কম্পিউট বরাদ্দ করছেন তার ওপর ভিত্তি করে মডেলের পারফরম্যান্স পরিবর্তিত হয়। একটি মডেল লিডারবোর্ডে খারাপ দেখাতে পারে শুধুমাত্র কারণ পরীক্ষার টোকেন ক্যাপ (token cap) কম ছিল। বাজেট পরিবর্তন করলেই র‍্যাঙ্কিং উল্টে যেতে পারে।

• ব্র্যান্ড বায়াস (Brand Bias): বিচারকরা GPT বা Claude-এর মতো সুপরিচিত নামগুলোর প্রতি পক্ষপাতিত্ব দেখায়। এই পক্ষপাতিত্ব ফলাফলকে প্রভাবিত করে এবং তুলনাগুলোকে অন্যায্য করে তোলে।

আপনার যা করা উচিত:

কোন বিচারক সবচেয়ে বেশি স্কোর করে তা জিজ্ঞেস করা বন্ধ করুন। বরং কোন বিচারক টুলটি মানুষের মাধ্যমে সবচেয়ে সাশ্রয়ীভাবে যাচাই করতে সাহায্য করে তা জিজ্ঞাসা করুন।

উৎস: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca