নতুন MirrorCode বেঞ্চমার্কে ১৯ দিন ধরে বিরতিহীনভাবে চলছে এআই মডেলসমূহ

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialগত সপ্তাহ3min read

নতুন MirrorCode বেঞ্চমার্কে ১৯ দিন ধরে বিরতিহীনভাবে চলছে এআই মডেলসমূহ

In this article

নতুন MirrorCode বেঞ্চমার্কে ১৯ দিন ধরে বিরতিহীনভাবে চলছে AI মডেলসমূহ

স্বায়ত্তশাসিত সফটওয়্যার ইঞ্জিনিয়ারিংয়ের প্রেক্ষাপট এখন সাধারণ কোড স্নিপেট থেকে বিশাল, বহু দিনব্যাপী প্রোগ্রামিং ম্যারাথনের দিকে মোড় নিচ্ছে। Epoch AI এবং METR-এর একটি নতুন বেঞ্চমার্ক, যার নাম MirrorCode, প্রকাশ করেছে যে AI মডেলগুলো এখন এমন জটিল রিইমপ্লিমেন্টেশন (reimplementation) কাজ সম্পন্ন করতে পারে, যা আগে মানুষের কয়েক সপ্তাহের শ্রমের প্রয়োজন হতো।

MirrorCode দিয়ে AI-কে চ্যালেঞ্জ জানানো

MirrorCode প্রথাগত সফটওয়্যার ইঞ্জিনিয়ারিং বেঞ্চমার্কগুলো থেকে একটি উল্লেখযোগ্য বিচ্যুতি নির্দেশ করে, যেখানে সাধারণত প্রতিটি কাজের ইনফারেন্স (inference) খরচ মাত্র ১ থেকে ১০ ডলারের মধ্যে সীমাবদ্ধ থাকে। এর পরিবর্তে, এই বেঞ্চমার্কে AI মডেলগুলোকে মূল সোর্স কোড ছাড়াই একদম শুরু থেকে সম্পূর্ণ এবং জটিল প্রোগ্রাম পুনরায় তৈরি করতে হয়—যার মধ্যে Unix ইউটিলিটি এবং ক্রিপ্টোগ্রাফি থেকে শুরু করে বায়োইনফরমেটিক্স এবং ডেটা সিরিয়ালাইজেশন পর্যন্ত অন্তর্ভুক্ত। প্রকৃত কার্যকারিতা নিশ্চিত করতে, প্রতিটি AI-জেনারেটেড সমাধানকে এমন কিছু লুকানো এন্ড-টু-এন্ড (end-to-end) টেস্ট পার করতে হয়, যা মডেলটি তার ডেভেলপমেন্ট পর্যায়ে কখনও দেখেনি।

এই কাজগুলোর পরিধি অভূতপূর্ব। বেঞ্চমার্কে একটি নির্দিষ্ট কাজের জন্য একটি AI মডেলকে মানুষের কোনো হস্তক্ষেপ ছাড়াই টানা ১৯ দিন কাজ করতে হয়েছে, যার ফলে একটি মাত্র রানের ইনফারেন্স খরচ দাঁড়িয়েছে ২,৬০০ ডলার।

দৌড়ে শীর্ষে Claude Opus 4.7

বেঞ্চমার্কের ফলাফলগুলো বর্তমান ফ্রন্টিয়ার মডেলগুলোর মধ্যে একটি স্পষ্ট স্তরবিন্যাস তুলে ধরেছে। Claude Opus 4.7 ৫৬ শতাংশ সল্ভ রেট (solve rate) নিয়ে নেতা হিসেবে আবির্ভূত হয়েছে, যা GPT-5.5 (৪৪ শতাংশ) এবং Gemini 3.1 Pro Preview (৩২ শতাংশ)-কে উল্লেখযোগ্যভাবে ছাড়িয়ে গেছে।

একটি উল্লেখযোগ্য সাফল্য ছিল বায়োইনফরমেটিক্স টুলকিট gotree-এর ক্ষেত্রে। এই প্রোগ্রামটি প্রায় ১৬,০০০ লাইনের Go কোড নিয়ে গঠিত এবং এতে ৪০টিরও বেশি স্বতন্ত্র কমান্ড রয়েছে। একজন মানব প্রকৌশলীকে এই ধরনের কাজ সম্পন্ন করতে সাধারণত ২ থেকে ১৭ সপ্তাহ সময় লাগতে পারে, কিন্তু Claude Opus 4.7 মাত্র ১৪ ঘণ্টায় এবং ২৫১ ডলার খরচে এটি সফলভাবে রিইমপ্লিমেন্ট করেছে। এমনকি যেসব ক্ষেত্রে মডেলগুলো ১০০ শতাংশ নিখুঁত রিইমপ্লিমেন্টেশন করতে ব্যর্থ হয়েছে, সেখানেও তারা বিস্ময়করভাবে ৯০ শতাংশের বেশি ফাংশনাল টেস্ট পাস করেছে।

জটিলতার ব্যবধান এবং মেমোরাইজেশনের ঝুঁকি

এই অগ্রগতি সত্ত্বেও, MirrorCode-এর ফলাফল একটি স্পষ্ট "জটিলতার সীমা" (complexity ceiling) প্রকাশ করে। যদিও পরীক্ষিত সব মডেলই uuid বা parseqsv-এর মতো ছোট প্রোগ্রামগুলো নির্ভরযোগ্যভাবে সামলাতে পারে, তবে বর্তমানে কোনো মডেলই "large" বা বড় ক্যাটাগরির কাজগুলো পুরোপুরি সমাধান করার সক্ষমতা রাখে না। সবচেয়ে বিশাল এবং আন্তঃসংযুক্ত সফটওয়্যার আর্কিটেকচারের মুখোমুখি হলে AI কোডিংয়ের অগ্রযাত্রা এখনও হিমশিম খাচ্ছে।

Epoch AI LLM মূল্যায়নের একটি গুরুত্বপূর্ণ উদ্বেগও তুলে ধরেছে: ডেটা কনটামিনেশন (data contamination)। যেহেতু এই বেঞ্চমার্কে ওপেন-সোর্স প্রোগ্রাম ব্যবহার করা হয়েছে, তাই এই ঝুঁকি রয়েছে যে মডেলগুলো তাদের ট্রেনিং পর্যায়ে মূল কোডটি ইতিমধ্যে মুখস্থ (memorize) করে ফেলেছে। যদিও প্রাথমিক ফলাফলগুলো ইঙ্গিত দেয় যে পারফরম্যান্স শুধুমাত্র মেমোরাইজেশনের ওপর নির্ভরশীল নয়, তবুও গবেষকরা স্বীকার করেছেন যে বর্তমান সল্ভ রেটে এর অবদানকে তারা পুরোপুরি নাকচ করে দিতে পারছেন না।

কেন এটি AI শিল্পের জন্য গুরুত্বপূর্ণ

MirrorCode "AI as a Copilot" থেকে "AI as an Autonomous Agent"-এ রূপান্তরের সংকেত দিচ্ছে। মডেলগুলো ১৯ দিনব্যাপী যুক্তReasoner (reasoning) বজায় রাখতে পারে এবং হাজার হাজার লাইনের কোড সামলাতে পারে তা প্রমাণ করার মাধ্যমে, শিল্পটি এখন এমন এজেন্টের দিকে এগিয়ে যাচ্ছে যারা পুরো সফটওয়্যার লাইফসাইকেল পরিচালনা করতে সক্ষম। ইনফারেন্স খরচ ওঠানামা করার সাথে সাথে—যেখানে GPT-5.5 তার পূর্বসূরির তুলনায় তিনগুণ বেশি খরচ করছে, অন্যদিকে Claude Opus 4.7 তিনগুণ বেশি দক্ষ হয়ে উঠেছে—স্বায়ত্তশাসিত ইঞ্জিনিয়ারিংয়ের অর্থনৈতিক উপযোগিতা হবে পরবর্তী বড় চ্যালেঞ্জ।

মূল বিষয়সমূহ

যুক্তির নতুন মাত্রা (New Scale of Reasoning): MirrorCode বিশাল ইনফারেন্স বাজেট ব্যবহারের মাধ্যমে AI-এর সীমাবদ্ধতাকে ছাড়িয়ে যাচ্ছে, যেখানে একটি একক কাজের খরচ ২,৬০০ ডলার পর্যন্ত হতে পারে এবং তা ১৯ দিন পর্যন্ত চলতে পারে।
পারফরম্যান্সে শীর্ষে Claude: Claude Opus 4.7 বর্তমানে ৫৬% সল্ভ রেট নিয়ে বেঞ্চমার্কের শীর্ষে রয়েছে, যা বড় মাপের Go কোডবেস রিইমপ্লিমেন্ট করার ক্ষেত্রে এর উন্নত সক্ষমতা প্রদর্শন করে।
জটিলতার বাধা এখনও বিদ্যমান: ছোট আকারের কাজগুলো নির্ভরযোগ্যভাবে সমাধান করা গেলেও, কোনো বিদ্যমান মডেল এখনও সবচেয়ে জটিল এবং বড় মাপের প্রোগ্রামিং কাজগুলো পুরোপুরি সমাধান করতে পারছে না।

নতুন MirrorCode বেঞ্চমার্কে ১৯ দিন ধরে বিরতিহীনভাবে চলছে এআই মডেলসমূহ

নতুন MirrorCode বেঞ্চমার্কে ১৯ দিন ধরে বিরতিহীনভাবে চলছে AI মডেলসমূহ

MirrorCode দিয়ে AI-কে চ্যালেঞ্জ জানানো

দৌড়ে শীর্ষে Claude Opus 4.7

জটিলতার ব্যবধান এবং মেমোরাইজেশনের ঝুঁকি

কেন এটি AI শিল্পের জন্য গুরুত্বপূর্ণ

মূল বিষয়সমূহ

Continue reading

নতুন AA Briefcase বেঞ্চমার্ক প্রকাশ করল প্রকৃত জ্ঞানমূলক কাজে এআই-এর সীমাবদ্ধতা

Snowflake-এর সিইও: অনেক কম খরচে GLM 5.2 এখন Claude Opus 4.7-এর প্রতিদ্বন্দ্বী

AI খরচ মিলিয়নে সাশ্রয় করতে Claude-এর বদলে DeepSeek ব্যবহার করছে Lindy

৫০০ দিনের স্টার্টআপ সিমুলেশনে মাত্র তিনটি এআই মডেল টিকে থাকতে পেরেছে

Claude Sonnet 5: উচ্চ কার্যক্ষমতা আড়াল করছে উল্লেখযোগ্য মূল্য বৃদ্ধি