কেন প্রথাগত AI বেঞ্চমার্কগুলো পদ্ধতিগতভাবে এজেন্টের সক্ষমতাকে কম করে দেখায়

বর্তমান AI মূল্যায়ন পদ্ধতিগুলো ফ্রন্টিয়ার মডেলগুলোর প্রকৃত সম্ভাবনা ধরতে ব্যর্থ হচ্ছে, যা প্রায়শই কম্পিউটেশনাল বাজেটের অভাবকে বুদ্ধিমত্তার অভাব হিসেবে ভুল করে। যুক্তরাজ্যের AI Security Institute (AISI) প্রকাশ করেছে যে, AI এজেন্টের পারফরম্যান্স কোনো স্থির স্কোর নয়, বরং এটি একটি স্কেলিং কার্ভ (scaling curve) যা টেস্ট-টাইম কম্পিউট (test-time compute) বৃদ্ধির সাথে সাথে দ্রুত বৃদ্ধি পায়।

কম্পিউট-সক্ষমতা কার্ভ (The Compute-Capability Curve)

AISI গবেষণার মূল ফলাফল হলো, একটি AI এজেন্টের সাফল্যের হার তার "test-time compute"-এর সাথে অবিচ্ছেদ্যভাবে যুক্ত—অর্থাৎ একটি টাস্ক বা কাজ করার সময় এজেন্টকে যে পরিমাণ প্রসেসিং পাওয়ার এবং টোকেন ব্যবহারের অনুমতি দেওয়া হয়। যখন গবেষকরা মূল্যায়নের ক্ষেত্রে একটি নির্দিষ্ট বাজেটের সীমা নির্ধারণ করে দেন, তখন তারা মডেলটির সর্বোচ্চ সম্ভাবনার পরিবর্তে তার সর্বনিম্ন সক্ষমতা পরিমাপ করেন।

এই ঘটনাটি একাধিক উচ্চ-ঝুঁকিপূর্ণ ক্ষেত্রে দৃশ্যমান। TerminalBench 2.0 এবং SWE-Bench Pro-এর মতো বেঞ্চমার্ক ব্যবহার করে সফটওয়্যার ইঞ্জিনিয়ারিং টাস্কগুলোতে, টোকেন বাজেট এক মিলিয়ন থেকে দশ মিলিয়নে উন্নীত করার ফলে সাফল্যের হার প্রায় ২৫% বৃদ্ধি পেয়েছে। একইভাবে, "Humanity's Last Exam"-এ গাণিতিক এবং একাডেমিক টাস্কগুলোতে বাজেট পাঁচ মিলিয়ন টোকেনে পৌঁছালে ২২% উন্নতি দেখা গেছে।

মানুষ বনাম AI টাস্ক সময়ের পাওয়ার ল (The Power Law of Human vs. AI Task Time)

এই গবেষণাটি একজন বিশেষজ্ঞ মানুষের একটি কাজের জন্য প্রয়োজনীয় সময় এবং একটি AI এজেন্টের জন্য প্রয়োজনীয় টোকেন ব্যবহারের মধ্যে একটি সরাসরি সম্পর্ক স্থাপন করেছে। এই সম্পর্কটি একটি পাওয়ার ল (power law) অনুসরণ করে: একটি কাজ যা করতে একজন মানুষের এক মিনিট সময় লাগে, তা একজন এজেন্টের জন্য হাজার হাজার টোকেন খরচ করে; অন্যদিকে, এক ঘণ্টার একটি কাজের জন্য লক্ষ লক্ষ টোকেন প্রয়োজন হয়।

এটি বর্তমান টেস্টিং প্রক্রিয়ায় একটি বিশাল অন্ধস্থান (blind spot) তৈরি করে। উদাহরণস্বরূপ, AISI-এর সাইবার সিকিউরিটি টাস্ক "The Last Ones"-এর জন্য প্রায় ২০ ঘণ্টার মানুষের বিশেষজ্ঞ জ্ঞান প্রয়োজন। ইনস্টিটিউট দ্বারা পরীক্ষিত কোনো মডেলই ৩০ মিলিয়নের কম টোকেন ব্যবহার করে এই কাজটি সমাধান করতে পারেনি। প্রথাগত এবং কম বাজেটের মূল্যায়ন ব্যবহারের মাধ্যমে গবেষকরা কার্যত পরিমাপ প্রক্রিয়া থেকে সবচেয়ে জটিল এবং গুরুত্বপূর্ণ কাজগুলোকে বাদ দিয়ে দিচ্ছেন।

দ্রুততর অগ্রগতি এবং উন্নতির তিনটি অক্ষ (The Three Axes of Improvement)

AISI উল্লেখ করেছে যে, ফ্রন্টিয়ার মডেলগুলোর "time horizon"—অর্থাৎ তারা যে জটিলতা সম্পন্ন কাজ করতে পারে—তা আগের ধারণার চেয়ে অনেক দ্রুত প্রসারিত হচ্ছে। যদিও আগের অনুমান অনুযায়ী একটি নির্দিষ্ট ২.৫ মিলিয়ন টোকেন বাজেটে সাইবার টাস্কগুলোর টাইম হরাইজন প্রতি ৪.৭ মাসে দ্বিগুণ হতো, উচ্চ বাজেটে সেই হার উল্লেখযোগ্যভাবে বৃদ্ধি পায়। ৫০ মিলিয়ন টোকেনের ক্ষেত্রে, দ্বিগুণ হওয়ার হার প্রতি ৪০ থেকে ৫০ দিনে নেমে আসে।

নতুন মডেলগুলো (যেমন পরীক্ষিত GPT এবং Claude সিরিজ) তিনটি নির্দিষ্ট মাত্রায় উন্নতি দেখায়:

  • Reach (প্রসার): ক্রমবর্ধমান কঠিন কাজ করার ক্ষমতা।
  • Reliability (নির্ভরযোগ্যতা): একই কাজ আরও ধারাবাহিকভাবে সমাধান করার ক্ষমতা।
  • Efficiency (দক্ষতা): কম টোকেন ব্যবহার করে কাজ সমাধান করার ক্ষমতা।

AI নিরাপত্তা এবং ব্যবহারের প্রভাব (Implications for AI Safety and Deployment)

এই গবেষণাটি AI মূল্যায়নের প্যারাডাইম বা ধারণাটিকে "fixed scores" থেকে "compute-aware curves"-এ রূপান্তরিত করে। ডেভেলপার এবং প্রতিষ্ঠাতাদের জন্য এর অর্থ হলো, একটি মডেলের উপযোগিতা কেবল তার প্রশিক্ষণের ওপর নয়, বরং ব্যবহারের সময় (deployment) কতটুকু ইনফারেন্স কম্পিউট (inference compute) বরাদ্দ করা হচ্ছে তার ওপরও নির্ভর করে।

টোকেন প্রতি খরচ ক্রমাগত কমতে থাকায়, যে সক্ষমতাগুলো আগে অর্থনৈতিকভাবে অসম্ভব মনে হতো, সেগুলোই স্ট্যান্ডার্ড হয়ে উঠবে। AI নিরাপত্তা এবং সুরক্ষার ক্ষেত্রে এর অর্থ হলো, নিয়ন্ত্রক সংস্থা এবং কোম্পানিগুলো যদি প্রথাগত, কম বাজেটের বেঞ্চমার্কের ওপর নির্ভর করে, তবে স্বায়ত্তশাসিত এজেন্ট সংক্রান্ত ঝুঁকিগুলো—যেমন জটিল সাইবার আক্রমণ—উল্লেখযোগ্যভাবে কম করে দেখা হতে পারে।

মূল বিষয়সমূহ (Key Takeaways)

  • বেঞ্চমার্কগুলো বিভ্রান্তিকর: নির্দিষ্ট টোকেন বাজেট একটি মডেলের সর্বনিম্ন পারফরম্যান্স প্রকাশ করে, যা AI এজেন্টরা কী অর্জন করতে পারে তার সর্বোচ্চ সীমা বা সিলিংকে পদ্ধতিগতভাবে কম করে দেখায়।
  • কম্পিউট সক্ষমতা বাড়ায়: টেস্ট-টাইম কম্পিউট বাজেট বাড়ার সাথে সাথে সফটওয়্যার ইঞ্জিনিয়ারিং এবং গণিতে সাফল্যের হার উল্লেখযোগ্যভাবে বৃদ্ধি পায়।
  • "দ্বিগুণ" হওয়ার হার দ্রুততর হচ্ছে: উচ্চ কম্পিউট বাজেটে, ফ্রন্টিয়ার মডেলগুলো জটিল কাজে দক্ষতা অর্জনের হার আগের অনুমানের চেয়ে অনেক বেশি দ্রুত।