નવા MirrorCode Benchmark માં AI મોડલ્સ 19 દિવસ સુધી સતત ચાલ્યા

સ્વાયત્ત (autonomous) સોફ્ટવેર એન્જિનિયરિંગનું ક્ષેત્ર હવે સાદા કોડ સ્નિપેટ્સથી બદલાઈને વિશાળ, બહુ-દિવસીય પ્રોગ્રામિંગ મેરેથોન તરફ આગળ વધી રહ્યું છે. Epoch AI અને METR દ્વારા રજૂ કરવામાં આવેલ MirrorCode નામનું નવું benchmark દર્શાવે છે કે AI મોડલ્સ હવે જટિલ રી-ઇમ્પ્લીમેન્ટેશન (reimplementation) કાર્યો કરી શકે છે, જેના માટે અગાઉ માનવીય શ્રમ દ્વારા અઠવાડિયાનો સમય લાગતો હતો.

MirrorCode સાથે AI ને પડકાર

MirrorCode પરંપરાગત સોફ્ટવેર એન્જિનિયરિંગ benchmarks થી નોંધપાત્ર રીતે અલગ પડે છે, જે સામાન્ય રીતે પ્રતિ કાર્ય ઇન્ફરન્સ (inference) ખર્ચને માત્ર $1 થી $10 સુધી મર્યાદિત રાખે છે. તેના બદલે, આ benchmark AI મોડલ્સને મૂળ સોર્સ કોડની પહોંચ વિના—Unix utilities અને cryptography થી લઈને bioinformatics અને data serialization સુધીના—સંપૂર્ણ, જટિલ પ્રોગ્રામ્સને શૂન્યથી ફરીથી અમલમાં (reimplement) લાવવાની જરૂરિયાત મૂકે છે. સાચી કાર્યકારી સમાનતા (functional equivalence) સુનિશ્ચિત કરવા માટે, દરેક AI-જનરેટેડ સોલ્યુશન એ છુપાયેલા end-to-end ટેસ્ટ પાસ કરવા આવશ્યક છે, જે મોડલ તેના ડેવલપમેન્ટ ફેઝ દરમિયાન ક્યારેય જોતું નથી.

આ કાર્યોનું પ્રમાણ અભૂતપૂર્વ છે. Benchmark માં એક ચોક્કસ કાર્ય માટે AI મોડલે કોઈપણ માનવીય હસ્તક્ષેપ વિના સતત 19 દિવસ સુધી કામ કરવું પડ્યું હતું, જેના પરિણામે એક જ રન માટે $2,600 નો ઇન્ફરન્સ ખર્ચ થયો હતો.

Claude Opus 4.7 રેસમાં મોખરે

Benchmark ના પરિણામો વર્તમાન frontier models માં એક સ્પષ્ટ શ્રેણી દર્શાવે છે. Claude Opus 4.7 56 ટકા solve rate સાથે લીડર તરીકે ઉભરી આવ્યું છે, જે GPT-5.5 (44 ટકા) અને Gemini 3.1 Pro Preview (32 ટકા) કરતા નોંધપાત્ર રીતે શ્રેષ્ઠ પ્રદર્શન કરે છે.

એક નોંધપાત્ર સફળતા bioinformatics toolkit gotree સાથે જોડાયેલી હતી. આ પ્રોગ્રામમાં અંદાજે 16,000 લાઇન્સનો Go કોડ છે અને તેમાં 40 થી વધુ અલગ-અલગ કમાન્ડ્સ છે. જ્યારે એક માનવ એન્જિનિયરને આવું કાર્ય પૂર્ણ કરવા માટે સામાન્ય રીતે 2 થી 17 અઠવાડિયાનો સમય લાગે છે, ત્યારે Claude Opus 4.7 એ માત્ર 14 કલાકમાં $251 ના ખર્ચ સાથે તેને સફળતાપૂર્વક રી-ઇમ્પ્લીમેન્ટ કર્યું. એવા કિસ્સાઓમાં પણ જ્યાં મોડલ્સ 100 ટકા સંપૂર્ણ રી-ઇમ્પ્લીમેન્ટેશન કરવામાં નિષ્ફળ જાય છે, ત્યાં તેઓ આશ્ચર્યજનક રીતે 90 ટકાથી વધુ functional ટેસ્ટ પાસ કરે છે.

જટિલતાનું અંતર અને મેમરાઈઝેશનના જોખમો

આ પ્રગતિ છતાં, MirrorCode ના પરિણામો એક સ્પષ્ટ "complexity ceiling" (જટિલતાની મર્યાદા) દર્શાવે છે. જોકે તમામ ટેસ્ટ કરેલા મોડલ્સ uuid અથવા parseqsv જેવા નાના પ્રોગ્રામ્સને વિશ્વસનીય રીતે હેન્ડલ કરે છે, પરંતુ હાલમાં કોઈ પણ મોડલ પાસે "large" કેટેગરીના કાર્યોને સંપૂર્ણ રીતે ઉકેલવાની ક્ષમતા નથી. AI કોડિંગનું ક્ષેત્ર હજુ પણ સૌથી વિશાળ અને પરસ્પર જોડાયેલા સોફ્ટવેર આર્કિટેક્ચર્સનો સામનો કરતી વખતે સંઘર્ષ કરે છે.

Epoch AI એ LLM ઇવેલ્યુએશનમાં એક ગંભીર ચિંતા પણ રજૂ કરી છે: data contamination. કારણ કે આ benchmark ઓપન-સોર્સ પ્રોગ્રામ્સનો ઉપયોગ કરે છે, તેથી એ જોખમ રહેલું છે કે મોડલ્સ તેમના ટ્રેનિંગ ફેઝ દરમિયાન મૂળ કોડને પહેલેથી જ યાદ (memorize) કરી લીધો હોય. જોકે પ્રારંભિક તારણો સૂચવે છે કે પ્રદર્શન માત્ર મેમરાઈઝેશન દ્વારા નથી થતું, તેમ છતાં સંશોધકો સ્વીકારે છે કે તેઓ વર્તમાન solve rates માં તેના યોગદાનને સંપૂર્ણપણે નકારી શકતા નથી.

AI ઉદ્યોગ માટે આ શા માટે મહત્વનું છે

MirrorCode "AI as a Copilot" થી "AI as an Autonomous Agent" તરફના પરિવર્તનને સંકેત આપે છે. મોડલ્સ 19 દિવસના સમયગાળા દરમિયાન તર્ક (reasoning) જાળવી રાખી શકે છે અને હજારો લાઇન્સના કોડને હેન્ડલ કરી શકે છે તે સાબિત કરીને, ઉદ્યોગ હવે આખા સોફ્ટવેર લાઇફસાયકલનું સંચાલન કરવા સક્ષમ એજન્ટ્સની નજીક પહોંચી રહ્યો છે. જેમ જેમ ઇન્ફરન્સ ખર્ચમાં વધઘટ થાય છે—GPT-5.5 તેના પૂર્વવર્તી કરતા ત્રણ ગણું વધુ ખર્ચાળ છે જ્યારે Claude Opus 4.7 ત્રણ ગણું વધુ કાર્યક્ષમ બન્યું છે—તેમ સ્વાયત્ત એન્જિનિયરિંગની આર્થિક વ્યવહારુતા આગામી મોટી સીમા બનશે.

મુખ્ય તારણો

  • Reasoningનું નવું સ્તર: MirrorCode વિશાળ ઇન્ફરન્સ બજેટની મંજૂરી આપીને AI ની મર્યાદાઓને આગળ ધપાવે છે, જેમાં એકલ કાર્યોનો ખર્ચ $2,600 સુધી પહોંચી શકે છે અને તે 19 દિવસ સુધી ચાલી શકે છે.
  • Claude પ્રદર્શનમાં મોખરે: Claude Opus 4.7 હાલમાં 56% solve rate સાથે benchmark લીડર છે, જે મોટા પાયે Go codebases ને રી-ઇમ્પ્લીમેન્ટ કરવામાં શ્રેષ્ઠ ક્ષમતા દર્શાવે છે.
  • જટિલતાના અવરોધો હજુ પણ છે: જ્યારે નાના પાયાના કાર્યો વિશ્વસનીય રીતે ઉકેલવામાં આવી રહ્યા છે, ત્યારે હજુ સુધી કોઈ પણ હાલનું મોડલ સૌથી જટિલ, મોટા પાયાના પ્રોગ્રામિંગ કાર્યોને સંપૂર્ણ રીતે ઉકેલી શકતું નથી.