नवीन MirrorCode बेंचमार्कमध्ये AI मॉडेल्स १९ दिवस सलग कार्यरत
स्वायत्त सॉफ्टवेअर इंजिनिअरिंगचे स्वरूप आता साध्या कोड स्निपेट्सकडून (code snippets) मोठ्या, अनेक दिवसांच्या प्रोग्रामिंग मॅरेथॉनकडे वळत आहे. Epoch AI आणि METR कडून सादर करण्यात आलेला 'MirrorCode' नावाचा नवीन बेंचमार्क असे दर्शवतो की, AI मॉडेल्स आता अशा जटिल री-इम्प्लीमेंटेशन (reimplementation) कामांना सामोरे जाऊ शकतात, ज्यासाठी पूर्वी मानवी श्रमाची अनेक आठवडे गरज भासायची.
MirrorCode द्वारे AI ला आव्हान
पारंपारिक सॉफ्टवेअर इंजिनिअरिंग बेंचमार्क, जे सहसा प्रति कार्य (task) इन्फरन्स खर्च (inference cost) केवळ $१ ते $१० पर्यंत मर्यादित ठेवतात, त्यापासून MirrorCode पूर्णपणे वेगळे आहे. त्याऐवजी, हा बेंचमार्क AI मॉडेल्सना मूळ सोर्स कोडशिवाय—Unix युटिलिटीज आणि क्रिप्टोग्राफीपासून ते बायोइन्फॉर्मेटिक्स आणि डेटा सिरीयलायझेशनपर्यंत—संपूर्ण आणि जटिल प्रोग्राम्स शून्यापासून पुन्हा तयार करण्याची (reimplement) आवश्यकता आणतो. खऱ्या कार्यात्मक समानता (functional equivalence) सुनिश्चित करण्यासाठी, प्रत्येक AI-व्युत्पन्न समाधानाला (solution) अशा लपलेल्या एंड-टू-एंड चाचण्यांमधून जावे लागते, ज्या मॉडेलला त्याच्या विकास टप्प्यादरम्यान कधीही दिसत नाहीत.
या कामांचे प्रमाण अभूतपूर्व आहे. बेंचमार्कमधील एका विशिष्ट कामासाठी AI मॉडेलला कोणत्याही मानवी हस्तक्षेपाशिवाय सलग १९ दिवस काम करावे लागले, ज्याचा परिणाम एका सिंगल रनसाठी $२,६०० इतका इन्फरन्स खर्च झाला.
Claude Opus 4.7 शर्यतीत आघाडीवर
बेंचमार्कचे निकाल सध्याच्या आघाडीच्या मॉडेल्समधील स्पष्ट श्रेणी (hierarchy) अधोरेखित करतात. Claude Opus 4.7 ५६ टक्के 'सॉल्व्ह रेट'सह (solve rate) विजेता म्हणून समोर आले आहे, ज्याने GPT-5.5 (४४ टक्के) आणि Gemini 3.1 Pro Preview (३२ टक्के) पेक्षा लक्षणीय कामगिरी केली आहे.
बायोइन्फॉर्मेटिक्स टूलकिट gotree मधील यश विशेष उल्लेखनीय आहे. या प्रोग्राममध्ये अंदाजे १६,००० ओळींचा Go कोड आहे आणि त्यात ४० हून अधिक स्वतंत्र कमांड्स आहेत. एखादा मानवी इंजिनिअर असे काम पूर्ण करण्यासाठी साधारणपणे २ ते १७ आठवडे घेईल, परंतु Claude Opus 4.7 ने केवळ १४ तासांत आणि $२५१ च्या खर्चात ते यशस्वीरित्या री-इम्प्लीमेंट केले. ज्या प्रकरणांमध्ये मॉडेल्स १०० टक्के अचूक री-इम्प्लीमेंटेशन करण्यात अपयशी ठरतात, तिथेही ते आश्चर्यकारकपणे ९० टक्क्यांहून अधिक कार्यात्मक चाचण्या (functional tests) उत्तीर्ण होतात.
जटिलतेतील तफावत आणि मेमोरायझेशनचे (Memorization) धोके
या प्रगतीनंतरही, MirrorCode चे निकाल एक स्पष्ट "जटिलतेची मर्यादा" (complexity ceiling) दर्शवतात. सर्व चाचणी घेतलेली मॉडेल्स uuid किंवा parseqsv सारखे लहान प्रोग्राम्स विश्वासार्हतेने हाताळतात, परंतु सध्या कोणत्याही मॉडेलमध्ये "मोठ्या" (large) श्रेणीतील कामे पूर्णपणे सोडवण्याची क्षमता नाही. सर्वात विशाल आणि एकमेकांशी जोडलेल्या सॉफ्टवेअर आर्किटेक्चरचा सामना करताना AI कोडिंगचे क्षेत्र अजूनही संघर्ष करत आहे.
Epoch AI ने LLM मूल्यमापनातील एका महत्त्वाच्या चिंतेवरही प्रकाश टाकला: डेटा कॉन्टामिनेशन (data contamination). हा बेंचमार्क ओपन-सोर्स प्रोग्राम्सचा वापर करत असल्याने, मॉडेल्सनी त्यांच्या ट्रेनिंग दरम्यान मूळ कोड आधीच लक्षात ठेवलेला (memorized) असण्याचा धोका आहे. जरी प्राथमिक निष्कर्ष असे सूचित करत असले की कामगिरी केवळ मेमोरायझेशनवर आधारित नाही, तरीही संशोधकांनी मान्य केले आहे की सध्याच्या सॉल्व्ह रेटमध्ये त्याचे योगदान पूर्णपणे नाकारता येत नाही.
AI उद्योगासाठी हे का महत्त्वाचे आहे
MirrorCode हे "AI एक Copilot म्हणून" कडून "AI एक स्वायत्त एजंट (Autonomous Agent) म्हणून" होणाऱ्या बदलाचे संकेत देते. मॉडेल्स १९ दिवसांच्या कालावधीत तर्कसंगत विचार (reasoning) चालू ठेवू शकतात आणि हजारो ओळींचा कोड हाताळू शकतात हे सिद्ध करून, उद्योग आता संपूर्ण सॉफ्टवेअर लाइफसायकल व्यवस्थापित करण्यास सक्षम असलेल्या एजंट्सच्या जवळ पोहोचत आहे. जसजसा इन्फरन्स खर्च बदलत आहे—जिथे GPT-5.5 चा खर्च त्याच्या आधीच्या मॉडेलपेक्षा तीन पटीने जास्त आहे, तर Claude Opus 4.7 तीन पटीने अधिक कार्यक्षम झाले आहे—तस तसतसे स्वायत्त इंजिनिअरिंगची आर्थिक व्यवहार्यता हे पुढील मोठे क्षेत्र असेल.
मुख्य निष्कर्ष
- तर्काचे नवीन प्रमाण: MirrorCode मोठ्या इन्फरन्स बजेटची परवानगी देऊन AI च्या मर्यादा विस्तारते, ज्यामध्ये एकल कामाचा खर्च $२,६०० पर्यंत असू शकतो आणि ते १९ दिवस चालते.
- Claude कामगिरीत आघाडीवर: Claude Opus 4.7 सध्या ५६% सॉल्व्ह रेटसह बेंचमार्क लीडर आहे, जे मोठ्या प्रमाणावरील Go कोडबेस री-इम्प्लीमेंट करण्याच्या उत्कृष्ट क्षमता दर्शवते.
- जटिलतेचे अडथळे कायम: लहान प्रमाणावरील कामे विश्वासार्हतेने सोडवली जात असली तरी, सध्याचे कोणतेही मॉडेल अत्यंत जटिल, मोठ्या प्रमाणावरील प्रोग्रामिंग कामे पूर्णपणे सोडवू शकत नाही.
