नवीन MirrorCode बेंचमार्कमध्ये AI मॉडेल्स सलग १९ दिवस चालतात

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialमागील आठवडा3min read

नवीन MirrorCode बेंचमार्कमध्ये AI मॉडेल्स सलग १९ दिवस चालतात

In this article

नवीन MirrorCode बेंचमार्कमध्ये AI मॉडेल्स १९ दिवस सलग कार्यरत

स्वायत्त सॉफ्टवेअर इंजिनिअरिंगचे स्वरूप आता साध्या कोड स्निपेट्सकडून (code snippets) मोठ्या, अनेक दिवसांच्या प्रोग्रामिंग मॅरेथॉनकडे वळत आहे. Epoch AI आणि METR कडून सादर करण्यात आलेला 'MirrorCode' नावाचा नवीन बेंचमार्क असे दर्शवतो की, AI मॉडेल्स आता अशा जटिल री-इम्प्लीमेंटेशन (reimplementation) कामांना सामोरे जाऊ शकतात, ज्यासाठी पूर्वी मानवी श्रमाची अनेक आठवडे गरज भासायची.

MirrorCode द्वारे AI ला आव्हान

पारंपारिक सॉफ्टवेअर इंजिनिअरिंग बेंचमार्क, जे सहसा प्रति कार्य (task) इन्फरन्स खर्च (inference cost) केवळ $१ ते $१० पर्यंत मर्यादित ठेवतात, त्यापासून MirrorCode पूर्णपणे वेगळे आहे. त्याऐवजी, हा बेंचमार्क AI मॉडेल्सना मूळ सोर्स कोडशिवाय—Unix युटिलिटीज आणि क्रिप्टोग्राफीपासून ते बायोइन्फॉर्मेटिक्स आणि डेटा सिरीयलायझेशनपर्यंत—संपूर्ण आणि जटिल प्रोग्राम्स शून्यापासून पुन्हा तयार करण्याची (reimplement) आवश्यकता आणतो. खऱ्या कार्यात्मक समानता (functional equivalence) सुनिश्चित करण्यासाठी, प्रत्येक AI-व्युत्पन्न समाधानाला (solution) अशा लपलेल्या एंड-टू-एंड चाचण्यांमधून जावे लागते, ज्या मॉडेलला त्याच्या विकास टप्प्यादरम्यान कधीही दिसत नाहीत.

या कामांचे प्रमाण अभूतपूर्व आहे. बेंचमार्कमधील एका विशिष्ट कामासाठी AI मॉडेलला कोणत्याही मानवी हस्तक्षेपाशिवाय सलग १९ दिवस काम करावे लागले, ज्याचा परिणाम एका सिंगल रनसाठी $२,६०० इतका इन्फरन्स खर्च झाला.

Claude Opus 4.7 शर्यतीत आघाडीवर

बेंचमार्कचे निकाल सध्याच्या आघाडीच्या मॉडेल्समधील स्पष्ट श्रेणी (hierarchy) अधोरेखित करतात. Claude Opus 4.7 ५६ टक्के 'सॉल्व्ह रेट'सह (solve rate) विजेता म्हणून समोर आले आहे, ज्याने GPT-5.5 (४४ टक्के) आणि Gemini 3.1 Pro Preview (३२ टक्के) पेक्षा लक्षणीय कामगिरी केली आहे.

बायोइन्फॉर्मेटिक्स टूलकिट gotree मधील यश विशेष उल्लेखनीय आहे. या प्रोग्राममध्ये अंदाजे १६,००० ओळींचा Go कोड आहे आणि त्यात ४० हून अधिक स्वतंत्र कमांड्स आहेत. एखादा मानवी इंजिनिअर असे काम पूर्ण करण्यासाठी साधारणपणे २ ते १७ आठवडे घेईल, परंतु Claude Opus 4.7 ने केवळ १४ तासांत आणि $२५१ च्या खर्चात ते यशस्वीरित्या री-इम्प्लीमेंट केले. ज्या प्रकरणांमध्ये मॉडेल्स १०० टक्के अचूक री-इम्प्लीमेंटेशन करण्यात अपयशी ठरतात, तिथेही ते आश्चर्यकारकपणे ९० टक्क्यांहून अधिक कार्यात्मक चाचण्या (functional tests) उत्तीर्ण होतात.

जटिलतेतील तफावत आणि मेमोरायझेशनचे (Memorization) धोके

या प्रगतीनंतरही, MirrorCode चे निकाल एक स्पष्ट "जटिलतेची मर्यादा" (complexity ceiling) दर्शवतात. सर्व चाचणी घेतलेली मॉडेल्स uuid किंवा parseqsv सारखे लहान प्रोग्राम्स विश्वासार्हतेने हाताळतात, परंतु सध्या कोणत्याही मॉडेलमध्ये "मोठ्या" (large) श्रेणीतील कामे पूर्णपणे सोडवण्याची क्षमता नाही. सर्वात विशाल आणि एकमेकांशी जोडलेल्या सॉफ्टवेअर आर्किटेक्चरचा सामना करताना AI कोडिंगचे क्षेत्र अजूनही संघर्ष करत आहे.

Epoch AI ने LLM मूल्यमापनातील एका महत्त्वाच्या चिंतेवरही प्रकाश टाकला: डेटा कॉन्टामिनेशन (data contamination). हा बेंचमार्क ओपन-सोर्स प्रोग्राम्सचा वापर करत असल्याने, मॉडेल्सनी त्यांच्या ट्रेनिंग दरम्यान मूळ कोड आधीच लक्षात ठेवलेला (memorized) असण्याचा धोका आहे. जरी प्राथमिक निष्कर्ष असे सूचित करत असले की कामगिरी केवळ मेमोरायझेशनवर आधारित नाही, तरीही संशोधकांनी मान्य केले आहे की सध्याच्या सॉल्व्ह रेटमध्ये त्याचे योगदान पूर्णपणे नाकारता येत नाही.

AI उद्योगासाठी हे का महत्त्वाचे आहे

MirrorCode हे "AI एक Copilot म्हणून" कडून "AI एक स्वायत्त एजंट (Autonomous Agent) म्हणून" होणाऱ्या बदलाचे संकेत देते. मॉडेल्स १९ दिवसांच्या कालावधीत तर्कसंगत विचार (reasoning) चालू ठेवू शकतात आणि हजारो ओळींचा कोड हाताळू शकतात हे सिद्ध करून, उद्योग आता संपूर्ण सॉफ्टवेअर लाइफसायकल व्यवस्थापित करण्यास सक्षम असलेल्या एजंट्सच्या जवळ पोहोचत आहे. जसजसा इन्फरन्स खर्च बदलत आहे—जिथे GPT-5.5 चा खर्च त्याच्या आधीच्या मॉडेलपेक्षा तीन पटीने जास्त आहे, तर Claude Opus 4.7 तीन पटीने अधिक कार्यक्षम झाले आहे—तस तसतसे स्वायत्त इंजिनिअरिंगची आर्थिक व्यवहार्यता हे पुढील मोठे क्षेत्र असेल.

मुख्य निष्कर्ष

तर्काचे नवीन प्रमाण: MirrorCode मोठ्या इन्फरन्स बजेटची परवानगी देऊन AI च्या मर्यादा विस्तारते, ज्यामध्ये एकल कामाचा खर्च $२,६०० पर्यंत असू शकतो आणि ते १९ दिवस चालते.
Claude कामगिरीत आघाडीवर: Claude Opus 4.7 सध्या ५६% सॉल्व्ह रेटसह बेंचमार्क लीडर आहे, जे मोठ्या प्रमाणावरील Go कोडबेस री-इम्प्लीमेंट करण्याच्या उत्कृष्ट क्षमता दर्शवते.
जटिलतेचे अडथळे कायम: लहान प्रमाणावरील कामे विश्वासार्हतेने सोडवली जात असली तरी, सध्याचे कोणतेही मॉडेल अत्यंत जटिल, मोठ्या प्रमाणावरील प्रोग्रामिंग कामे पूर्णपणे सोडवू शकत नाही.

नवीन MirrorCode बेंचमार्कमध्ये AI मॉडेल्स सलग १९ दिवस चालतात

नवीन MirrorCode बेंचमार्कमध्ये AI मॉडेल्स १९ दिवस सलग कार्यरत

MirrorCode द्वारे AI ला आव्हान

Claude Opus 4.7 शर्यतीत आघाडीवर

जटिलतेतील तफावत आणि मेमोरायझेशनचे (Memorization) धोके

AI उद्योगासाठी हे का महत्त्वाचे आहे

मुख्य निष्कर्ष

Continue reading

New AA Briefcase Benchmark Reveals AI’s Struggle With Real Knowledge Work

Snowflake CEO: अत्यंत कमी खर्चात GLM 5.2 ने Claude Opus 4.7 ला दिली टक्कर

उबेरने अवघ्या ४ महिन्यांत आपले संपूर्ण AI कोडिंग बजेट संपवले

AI खर्चामध्ये लाखो डॉलर्स वाचवण्यासाठी Lindy ने Claude ऐवजी DeepSeek चा वापर सुरू केला

५०० दिवसांच्या स्टार्टअप सिम्युलेशनमध्ये फक्त तीन AI मॉडेल्स टिकले