কেন প্রচলিত এআই বেঞ্চমার্কসমূহ পদ্ধতিগতভাবে এজেন্টের সক্ষমতাকে অবমূল্যায়ন করে

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial২১ ঘন্টা আগে3min read

কেন প্রচলিত এআই বেঞ্চমার্কসমূহ পদ্ধতিগতভাবে এজেন্টের সক্ষমতাকে অবমূল্যায়ন করে

In this article

কেন প্রথাগত AI বেঞ্চমার্কগুলো পদ্ধতিগতভাবে এজেন্টের সক্ষমতাকে কম করে দেখায়

বর্তমান AI মূল্যায়ন পদ্ধতিগুলো ফ্রন্টিয়ার মডেলগুলোর প্রকৃত সম্ভাবনা ধরতে ব্যর্থ হচ্ছে, যা প্রায়শই কম্পিউটেশনাল বাজেটের অভাবকে বুদ্ধিমত্তার অভাব হিসেবে ভুল করে। যুক্তরাজ্যের AI Security Institute (AISI) প্রকাশ করেছে যে, AI এজেন্টের পারফরম্যান্স কোনো স্থির স্কোর নয়, বরং এটি একটি স্কেলিং কার্ভ (scaling curve) যা টেস্ট-টাইম কম্পিউট (test-time compute) বৃদ্ধির সাথে সাথে দ্রুত বৃদ্ধি পায়।

কম্পিউট-সক্ষমতা কার্ভ (The Compute-Capability Curve)

AISI গবেষণার মূল ফলাফল হলো, একটি AI এজেন্টের সাফল্যের হার তার "test-time compute"-এর সাথে অবিচ্ছেদ্যভাবে যুক্ত—অর্থাৎ একটি টাস্ক বা কাজ করার সময় এজেন্টকে যে পরিমাণ প্রসেসিং পাওয়ার এবং টোকেন ব্যবহারের অনুমতি দেওয়া হয়। যখন গবেষকরা মূল্যায়নের ক্ষেত্রে একটি নির্দিষ্ট বাজেটের সীমা নির্ধারণ করে দেন, তখন তারা মডেলটির সর্বোচ্চ সম্ভাবনার পরিবর্তে তার সর্বনিম্ন সক্ষমতা পরিমাপ করেন।

এই ঘটনাটি একাধিক উচ্চ-ঝুঁকিপূর্ণ ক্ষেত্রে দৃশ্যমান। TerminalBench 2.0 এবং SWE-Bench Pro-এর মতো বেঞ্চমার্ক ব্যবহার করে সফটওয়্যার ইঞ্জিনিয়ারিং টাস্কগুলোতে, টোকেন বাজেট এক মিলিয়ন থেকে দশ মিলিয়নে উন্নীত করার ফলে সাফল্যের হার প্রায় ২৫% বৃদ্ধি পেয়েছে। একইভাবে, "Humanity's Last Exam"-এ গাণিতিক এবং একাডেমিক টাস্কগুলোতে বাজেট পাঁচ মিলিয়ন টোকেনে পৌঁছালে ২২% উন্নতি দেখা গেছে।

মানুষ বনাম AI টাস্ক সময়ের পাওয়ার ল (The Power Law of Human vs. AI Task Time)

এই গবেষণাটি একজন বিশেষজ্ঞ মানুষের একটি কাজের জন্য প্রয়োজনীয় সময় এবং একটি AI এজেন্টের জন্য প্রয়োজনীয় টোকেন ব্যবহারের মধ্যে একটি সরাসরি সম্পর্ক স্থাপন করেছে। এই সম্পর্কটি একটি পাওয়ার ল (power law) অনুসরণ করে: একটি কাজ যা করতে একজন মানুষের এক মিনিট সময় লাগে, তা একজন এজেন্টের জন্য হাজার হাজার টোকেন খরচ করে; অন্যদিকে, এক ঘণ্টার একটি কাজের জন্য লক্ষ লক্ষ টোকেন প্রয়োজন হয়।

এটি বর্তমান টেস্টিং প্রক্রিয়ায় একটি বিশাল অন্ধস্থান (blind spot) তৈরি করে। উদাহরণস্বরূপ, AISI-এর সাইবার সিকিউরিটি টাস্ক "The Last Ones"-এর জন্য প্রায় ২০ ঘণ্টার মানুষের বিশেষজ্ঞ জ্ঞান প্রয়োজন। ইনস্টিটিউট দ্বারা পরীক্ষিত কোনো মডেলই ৩০ মিলিয়নের কম টোকেন ব্যবহার করে এই কাজটি সমাধান করতে পারেনি। প্রথাগত এবং কম বাজেটের মূল্যায়ন ব্যবহারের মাধ্যমে গবেষকরা কার্যত পরিমাপ প্রক্রিয়া থেকে সবচেয়ে জটিল এবং গুরুত্বপূর্ণ কাজগুলোকে বাদ দিয়ে দিচ্ছেন।

দ্রুততর অগ্রগতি এবং উন্নতির তিনটি অক্ষ (The Three Axes of Improvement)

AISI উল্লেখ করেছে যে, ফ্রন্টিয়ার মডেলগুলোর "time horizon"—অর্থাৎ তারা যে জটিলতা সম্পন্ন কাজ করতে পারে—তা আগের ধারণার চেয়ে অনেক দ্রুত প্রসারিত হচ্ছে। যদিও আগের অনুমান অনুযায়ী একটি নির্দিষ্ট ২.৫ মিলিয়ন টোকেন বাজেটে সাইবার টাস্কগুলোর টাইম হরাইজন প্রতি ৪.৭ মাসে দ্বিগুণ হতো, উচ্চ বাজেটে সেই হার উল্লেখযোগ্যভাবে বৃদ্ধি পায়। ৫০ মিলিয়ন টোকেনের ক্ষেত্রে, দ্বিগুণ হওয়ার হার প্রতি ৪০ থেকে ৫০ দিনে নেমে আসে।

নতুন মডেলগুলো (যেমন পরীক্ষিত GPT এবং Claude সিরিজ) তিনটি নির্দিষ্ট মাত্রায় উন্নতি দেখায়:

Reach (প্রসার): ক্রমবর্ধমান কঠিন কাজ করার ক্ষমতা।
Reliability (নির্ভরযোগ্যতা): একই কাজ আরও ধারাবাহিকভাবে সমাধান করার ক্ষমতা।
Efficiency (দক্ষতা): কম টোকেন ব্যবহার করে কাজ সমাধান করার ক্ষমতা।

AI নিরাপত্তা এবং ব্যবহারের প্রভাব (Implications for AI Safety and Deployment)

এই গবেষণাটি AI মূল্যায়নের প্যারাডাইম বা ধারণাটিকে "fixed scores" থেকে "compute-aware curves"-এ রূপান্তরিত করে। ডেভেলপার এবং প্রতিষ্ঠাতাদের জন্য এর অর্থ হলো, একটি মডেলের উপযোগিতা কেবল তার প্রশিক্ষণের ওপর নয়, বরং ব্যবহারের সময় (deployment) কতটুকু ইনফারেন্স কম্পিউট (inference compute) বরাদ্দ করা হচ্ছে তার ওপরও নির্ভর করে।

টোকেন প্রতি খরচ ক্রমাগত কমতে থাকায়, যে সক্ষমতাগুলো আগে অর্থনৈতিকভাবে অসম্ভব মনে হতো, সেগুলোই স্ট্যান্ডার্ড হয়ে উঠবে। AI নিরাপত্তা এবং সুরক্ষার ক্ষেত্রে এর অর্থ হলো, নিয়ন্ত্রক সংস্থা এবং কোম্পানিগুলো যদি প্রথাগত, কম বাজেটের বেঞ্চমার্কের ওপর নির্ভর করে, তবে স্বায়ত্তশাসিত এজেন্ট সংক্রান্ত ঝুঁকিগুলো—যেমন জটিল সাইবার আক্রমণ—উল্লেখযোগ্যভাবে কম করে দেখা হতে পারে।

মূল বিষয়সমূহ (Key Takeaways)

বেঞ্চমার্কগুলো বিভ্রান্তিকর: নির্দিষ্ট টোকেন বাজেট একটি মডেলের সর্বনিম্ন পারফরম্যান্স প্রকাশ করে, যা AI এজেন্টরা কী অর্জন করতে পারে তার সর্বোচ্চ সীমা বা সিলিংকে পদ্ধতিগতভাবে কম করে দেখায়।
কম্পিউট সক্ষমতা বাড়ায়: টেস্ট-টাইম কম্পিউট বাজেট বাড়ার সাথে সাথে সফটওয়্যার ইঞ্জিনিয়ারিং এবং গণিতে সাফল্যের হার উল্লেখযোগ্যভাবে বৃদ্ধি পায়।
"দ্বিগুণ" হওয়ার হার দ্রুততর হচ্ছে: উচ্চ কম্পিউট বাজেটে, ফ্রন্টিয়ার মডেলগুলো জটিল কাজে দক্ষতা অর্জনের হার আগের অনুমানের চেয়ে অনেক বেশি দ্রুত।

কেন প্রচলিত এআই বেঞ্চমার্কসমূহ পদ্ধতিগতভাবে এজেন্টের সক্ষমতাকে অবমূল্যায়ন করে

কেন প্রথাগত AI বেঞ্চমার্কগুলো পদ্ধতিগতভাবে এজেন্টের সক্ষমতাকে কম করে দেখায়

কম্পিউট-সক্ষমতা কার্ভ (The Compute-Capability Curve)

মানুষ বনাম AI টাস্ক সময়ের পাওয়ার ল (The Power Law of Human vs. AI Task Time)

দ্রুততর অগ্রগতি এবং উন্নতির তিনটি অক্ষ (The Three Axes of Improvement)

AI নিরাপত্তা এবং ব্যবহারের প্রভাব (Implications for AI Safety and Deployment)

মূল বিষয়সমূহ (Key Takeaways)

Continue reading

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

এআই এজেন্ট মূল্যায়ন খুব দ্রুত শেষ হয়ে যায়

এজেন্টিক এআই-এর উত্থান: কেন প্রযুক্তি দলগুলো অটোমেশনের নতুন দিগন্তে নেতৃত্ব দিচ্ছে

Why Frontier AI Models Fail Financial Triage Tests