नए MirrorCode बेंचमार्क में AI मॉडल 19 दिनों तक बिना रुके चले
स्वायत्त सॉफ्टवेयर इंजीनियरिंग (autonomous software engineering) का परिदृश्य अब साधारण कोड स्निपेट्स से बदलकर विशाल, कई दिनों तक चलने वाली प्रोग्रामिंग मैराथन की ओर बढ़ रहा है। Epoch AI और METR द्वारा विकसित एक नया बेंचमार्क, जिसे MirrorCode कहा जाता है, यह दर्शाता है कि AI मॉडल अब उन जटिल रीइम्प्लीमेंटेशन (reimplementation) कार्यों को हल कर सकते हैं जिनमें पहले हफ्तों तक मानवीय श्रम की आवश्यकता होती थी।
MirrorCode के साथ AI को चुनौती
MirrorCode पारंपरिक सॉफ्टवेयर इंजीनियरिंग बेंचमार्क से एक महत्वपूर्ण बदलाव का प्रतिनिधित्व करता है, जो आमतौर पर प्रति कार्य इन्फरेंस (inference) लागत को मात्र $1 से $10 तक सीमित रखते हैं। इसके बजाय, यह बेंचमार्क AI मॉडलों से मूल सोर्स कोड तक पहुंच के बिना—Unix यूटिलिटीज और क्रिप्टोग्राफी से लेकर बायोइन्फॉर्मेटिक्स और डेटा सीरियलाइजेशन तक—संपूर्ण, जटिल प्रोग्रामों को शून्य से फिर से लागू (reimplement) करने की मांग करता है। वास्तविक कार्यात्मक समानता (functional equivalence) सुनिश्चित करने के लिए, प्रत्येक AI-जनरेटेड समाधान को उन छिपे हुए एंड-टू-एंड टेस्ट पास करने होंगे जिन्हें मॉडल अपने विकास चरण के दौरान कभी नहीं देख पाता है।
इन कार्यों का पैमाना अभूतपूर्व है। बेंचमार्क के एक विशिष्ट कार्य में एक AI मॉडल को बिना किसी मानवीय हस्तक्षेप के लगातार 19 दिनों तक काम करने की आवश्यकता थी, जिसके परिणामस्वरूप एक सिंगल रन के लिए $2,600 की इन्फरेंस लागत आई।
Claude Opus 4.7 रेस में सबसे आगे
बेंचमार्क के परिणाम वर्तमान फ्रंटियर मॉडलों में एक स्पष्ट पदानुक्रम (hierarchy) को उजागर करते हैं। Claude Opus 4.7 56 प्रतिशत सॉल्व रेट के साथ लीडर के रूप में उभरा, जिसने GPT-5.5 (44 प्रतिशत) और Gemini 3.1 Pro Preview (32 प्रतिशत) को काफी पीछे छोड़ दिया।
एक उल्लेखनीय सफलता बायोइन्फॉर्मेटिक्स टूलकिट gotree से जुड़ी थी। इस प्रोग्राम में लगभग 16,000 लाइन का Go कोड है और इसमें 40 से अधिक अलग-अलग कमांड्स हैं। जहाँ एक मानव इंजीनियर को इस तरह का कार्य पूरा करने में आमतौर पर 2 से 17 सप्ताह का समय लगता, वहीं Claude Opus 4.7 ने इसे मात्र 14 घंटों में $251 की लागत पर सफलतापूर्वक रीइम्प्लीमेंट कर दिया। यहाँ तक कि उन मामलों में भी जहाँ मॉडल 100 प्रतिशत सटीक रीइम्प्लीमेंटेशन करने में विफल रहते हैं, वे उल्लेखनीय रूप से 90 प्रतिशत से अधिक कार्यात्मक टेस्ट पास कर लेते हैं।
जटिलता का अंतर और याद रखने (Memorization) का जोखिम
इन छलांगों के बावजूद, MirrorCode के परिणाम एक स्पष्ट "जटिलता की सीमा" (complexity ceiling) को प्रकट करते हैं। हालाँकि सभी परीक्षण किए गए मॉडल uuid या parseqsv जैसे छोटे प्रोग्रामों को भरोसेमंद तरीके से संभाल लेते हैं, लेकिन वर्तमान में किसी भी मॉडल में "बड़े" (large) श्रेणी के कार्यों को पूरी तरह से हल करने की क्षमता नहीं है। AI कोडिंग का फ्रंटियर अभी भी सबसे विशाल और आपस में जुड़े सॉफ्टवेयर आर्किटेक्चर का सामना करने में संघर्ष कर रहा है।
Epoch AI ने LLM मूल्यांकन में एक महत्वपूर्ण चिंता को भी संबोधित किया: डेटा कंटैमिनेशन (data contamination)। चूँकि यह बेंचमार्क ओपन-सोर्स प्रोग्रामों का उपयोग करता है, इसलिए यह जोखिम बना रहता है कि मॉडलों ने अपने प्रशिक्षण चरणों के दौरान मूल कोड को पहले ही याद कर लिया हो। हालाँकि शुरुआती निष्कर्ष बताते हैं कि प्रदर्शन पूरी तरह से याद रखने (memorization) पर आधारित नहीं है, फिर भी शोधकर्ताओं ने स्वीकार किया है कि वे वर्तमान सॉल्व रेट में इसके योगदान को पूरी तरह से खारिज नहीं कर सकते।
AI उद्योग के लिए यह क्यों महत्वपूर्ण है
MirrorCode "AI as a Copilot" से "AI as an Autonomous Agent" की ओर संक्रमण का संकेत देता है। यह साबित करके कि मॉडल 19 दिनों की अवधि तक तर्क (reasoning) बनाए रख सकते हैं और हजारों लाइनों के कोड को संभाल सकते हैं, उद्योग उन एजेंटों के करीब पहुँच रहा है जो पूरे सॉफ्टवेयर लाइफसाइकिल का प्रबंधन करने में सक्षम हैं। जैसे-जैसे इन्फरेंस लागत में उतार-चढ़ाव आता है—जहाँ GPT-5.5 की लागत अपने पूर्ववर्ती से तीन गुना अधिक है, वहीं Claude Opus 4.7 तीन गुना अधिक कुशल हो गया है—स्वायत्त इंजीनियरिंग की आर्थिक व्यवहार्यता अगला बड़ा फ्रंटियर बनेगी।
मुख्य बातें
- तर्क का नया पैमाना: MirrorCode भारी इन्फरेंस बजट की अनुमति देकर AI की सीमाओं को आगे बढ़ाता है, जहाँ एकल कार्यों की लागत $2,600 तक हो सकती है और वे 19 दिनों तक चल सकते हैं।
- Claude प्रदर्शन में अग्रणी: Claude Opus 4.7 वर्तमान में 56% सॉल्व रेट के साथ बेंचमार्क लीडर है, जो बड़े पैमाने के Go कोडबेस को रीइम्प्लीमेंट करने में उत्कृष्ट क्षमता प्रदर्शित करता है।
- जटिलता की बाधाएं बनी हुई हैं: हालाँकि छोटे पैमाने के कार्यों को भरोसेमंद तरीके से हल किया जा रहा है, लेकिन कोई भी मौजूदा मॉडल अभी तक सबसे जटिल, बड़े पैमाने के प्रोग्रामिंग कार्यों को पूरी तरह से हल नहीं कर सकता है।
