নতুন MirrorCode বেঞ্চমার্কে ১৯ দিন ধরে বিরতিহীনভাবে চলছে AI মডেলসমূহ
স্বায়ত্তশাসিত সফটওয়্যার ইঞ্জিনিয়ারিংয়ের প্রেক্ষাপট এখন সাধারণ কোড স্নিপেট থেকে বিশাল, বহু দিনব্যাপী প্রোগ্রামিং ম্যারাথনের দিকে মোড় নিচ্ছে। Epoch AI এবং METR-এর একটি নতুন বেঞ্চমার্ক, যার নাম MirrorCode, প্রকাশ করেছে যে AI মডেলগুলো এখন এমন জটিল রিইমপ্লিমেন্টেশন (reimplementation) কাজ সম্পন্ন করতে পারে, যা আগে মানুষের কয়েক সপ্তাহের শ্রমের প্রয়োজন হতো।
MirrorCode দিয়ে AI-কে চ্যালেঞ্জ জানানো
MirrorCode প্রথাগত সফটওয়্যার ইঞ্জিনিয়ারিং বেঞ্চমার্কগুলো থেকে একটি উল্লেখযোগ্য বিচ্যুতি নির্দেশ করে, যেখানে সাধারণত প্রতিটি কাজের ইনফারেন্স (inference) খরচ মাত্র ১ থেকে ১০ ডলারের মধ্যে সীমাবদ্ধ থাকে। এর পরিবর্তে, এই বেঞ্চমার্কে AI মডেলগুলোকে মূল সোর্স কোড ছাড়াই একদম শুরু থেকে সম্পূর্ণ এবং জটিল প্রোগ্রাম পুনরায় তৈরি করতে হয়—যার মধ্যে Unix ইউটিলিটি এবং ক্রিপ্টোগ্রাফি থেকে শুরু করে বায়োইনফরমেটিক্স এবং ডেটা সিরিয়ালাইজেশন পর্যন্ত অন্তর্ভুক্ত। প্রকৃত কার্যকারিতা নিশ্চিত করতে, প্রতিটি AI-জেনারেটেড সমাধানকে এমন কিছু লুকানো এন্ড-টু-এন্ড (end-to-end) টেস্ট পার করতে হয়, যা মডেলটি তার ডেভেলপমেন্ট পর্যায়ে কখনও দেখেনি।
এই কাজগুলোর পরিধি অভূতপূর্ব। বেঞ্চমার্কে একটি নির্দিষ্ট কাজের জন্য একটি AI মডেলকে মানুষের কোনো হস্তক্ষেপ ছাড়াই টানা ১৯ দিন কাজ করতে হয়েছে, যার ফলে একটি মাত্র রানের ইনফারেন্স খরচ দাঁড়িয়েছে ২,৬০০ ডলার।
দৌড়ে শীর্ষে Claude Opus 4.7
বেঞ্চমার্কের ফলাফলগুলো বর্তমান ফ্রন্টিয়ার মডেলগুলোর মধ্যে একটি স্পষ্ট স্তরবিন্যাস তুলে ধরেছে। Claude Opus 4.7 ৫৬ শতাংশ সল্ভ রেট (solve rate) নিয়ে নেতা হিসেবে আবির্ভূত হয়েছে, যা GPT-5.5 (৪৪ শতাংশ) এবং Gemini 3.1 Pro Preview (৩২ শতাংশ)-কে উল্লেখযোগ্যভাবে ছাড়িয়ে গেছে।
একটি উল্লেখযোগ্য সাফল্য ছিল বায়োইনফরমেটিক্স টুলকিট gotree-এর ক্ষেত্রে। এই প্রোগ্রামটি প্রায় ১৬,০০০ লাইনের Go কোড নিয়ে গঠিত এবং এতে ৪০টিরও বেশি স্বতন্ত্র কমান্ড রয়েছে। একজন মানব প্রকৌশলীকে এই ধরনের কাজ সম্পন্ন করতে সাধারণত ২ থেকে ১৭ সপ্তাহ সময় লাগতে পারে, কিন্তু Claude Opus 4.7 মাত্র ১৪ ঘণ্টায় এবং ২৫১ ডলার খরচে এটি সফলভাবে রিইমপ্লিমেন্ট করেছে। এমনকি যেসব ক্ষেত্রে মডেলগুলো ১০০ শতাংশ নিখুঁত রিইমপ্লিমেন্টেশন করতে ব্যর্থ হয়েছে, সেখানেও তারা বিস্ময়করভাবে ৯০ শতাংশের বেশি ফাংশনাল টেস্ট পাস করেছে।
জটিলতার ব্যবধান এবং মেমোরাইজেশনের ঝুঁকি
এই অগ্রগতি সত্ত্বেও, MirrorCode-এর ফলাফল একটি স্পষ্ট "জটিলতার সীমা" (complexity ceiling) প্রকাশ করে। যদিও পরীক্ষিত সব মডেলই uuid বা parseqsv-এর মতো ছোট প্রোগ্রামগুলো নির্ভরযোগ্যভাবে সামলাতে পারে, তবে বর্তমানে কোনো মডেলই "large" বা বড় ক্যাটাগরির কাজগুলো পুরোপুরি সমাধান করার সক্ষমতা রাখে না। সবচেয়ে বিশাল এবং আন্তঃসংযুক্ত সফটওয়্যার আর্কিটেকচারের মুখোমুখি হলে AI কোডিংয়ের অগ্রযাত্রা এখনও হিমশিম খাচ্ছে।
Epoch AI LLM মূল্যায়নের একটি গুরুত্বপূর্ণ উদ্বেগও তুলে ধরেছে: ডেটা কনটামিনেশন (data contamination)। যেহেতু এই বেঞ্চমার্কে ওপেন-সোর্স প্রোগ্রাম ব্যবহার করা হয়েছে, তাই এই ঝুঁকি রয়েছে যে মডেলগুলো তাদের ট্রেনিং পর্যায়ে মূল কোডটি ইতিমধ্যে মুখস্থ (memorize) করে ফেলেছে। যদিও প্রাথমিক ফলাফলগুলো ইঙ্গিত দেয় যে পারফরম্যান্স শুধুমাত্র মেমোরাইজেশনের ওপর নির্ভরশীল নয়, তবুও গবেষকরা স্বীকার করেছেন যে বর্তমান সল্ভ রেটে এর অবদানকে তারা পুরোপুরি নাকচ করে দিতে পারছেন না।
কেন এটি AI শিল্পের জন্য গুরুত্বপূর্ণ
MirrorCode "AI as a Copilot" থেকে "AI as an Autonomous Agent"-এ রূপান্তরের সংকেত দিচ্ছে। মডেলগুলো ১৯ দিনব্যাপী যুক্তReasoner (reasoning) বজায় রাখতে পারে এবং হাজার হাজার লাইনের কোড সামলাতে পারে তা প্রমাণ করার মাধ্যমে, শিল্পটি এখন এমন এজেন্টের দিকে এগিয়ে যাচ্ছে যারা পুরো সফটওয়্যার লাইফসাইকেল পরিচালনা করতে সক্ষম। ইনফারেন্স খরচ ওঠানামা করার সাথে সাথে—যেখানে GPT-5.5 তার পূর্বসূরির তুলনায় তিনগুণ বেশি খরচ করছে, অন্যদিকে Claude Opus 4.7 তিনগুণ বেশি দক্ষ হয়ে উঠেছে—স্বায়ত্তশাসিত ইঞ্জিনিয়ারিংয়ের অর্থনৈতিক উপযোগিতা হবে পরবর্তী বড় চ্যালেঞ্জ।
মূল বিষয়সমূহ
- যুক্তির নতুন মাত্রা (New Scale of Reasoning): MirrorCode বিশাল ইনফারেন্স বাজেট ব্যবহারের মাধ্যমে AI-এর সীমাবদ্ধতাকে ছাড়িয়ে যাচ্ছে, যেখানে একটি একক কাজের খরচ ২,৬০০ ডলার পর্যন্ত হতে পারে এবং তা ১৯ দিন পর্যন্ত চলতে পারে।
- পারফরম্যান্সে শীর্ষে Claude: Claude Opus 4.7 বর্তমানে ৫৬% সল্ভ রেট নিয়ে বেঞ্চমার্কের শীর্ষে রয়েছে, যা বড় মাপের Go কোডবেস রিইমপ্লিমেন্ট করার ক্ষেত্রে এর উন্নত সক্ষমতা প্রদর্শন করে।
- জটিলতার বাধা এখনও বিদ্যমান: ছোট আকারের কাজগুলো নির্ভরযোগ্যভাবে সমাধান করা গেলেও, কোনো বিদ্যমান মডেল এখনও সবচেয়ে জটিল এবং বড় মাপের প্রোগ্রামিং কাজগুলো পুরোপুরি সমাধান করতে পারছে না।
