નવા MirrorCode બેન્ચમાર્ક માં AI મોડલ્સ ૧૯ દિવસ સુધી સતત ચાલે છે

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialગયા અઠવાડિયે3min read

નવા MirrorCode બેન્ચમાર્ક માં AI મોડલ્સ ૧૯ દિવસ સુધી સતત ચાલે છે

In this article

નવા MirrorCode Benchmark માં AI મોડલ્સ 19 દિવસ સુધી સતત ચાલ્યા

સ્વાયત્ત (autonomous) સોફ્ટવેર એન્જિનિયરિંગનું ક્ષેત્ર હવે સાદા કોડ સ્નિપેટ્સથી બદલાઈને વિશાળ, બહુ-દિવસીય પ્રોગ્રામિંગ મેરેથોન તરફ આગળ વધી રહ્યું છે. Epoch AI અને METR દ્વારા રજૂ કરવામાં આવેલ MirrorCode નામનું નવું benchmark દર્શાવે છે કે AI મોડલ્સ હવે જટિલ રી-ઇમ્પ્લીમેન્ટેશન (reimplementation) કાર્યો કરી શકે છે, જેના માટે અગાઉ માનવીય શ્રમ દ્વારા અઠવાડિયાનો સમય લાગતો હતો.

MirrorCode સાથે AI ને પડકાર

MirrorCode પરંપરાગત સોફ્ટવેર એન્જિનિયરિંગ benchmarks થી નોંધપાત્ર રીતે અલગ પડે છે, જે સામાન્ય રીતે પ્રતિ કાર્ય ઇન્ફરન્સ (inference) ખર્ચને માત્ર $1 થી $10 સુધી મર્યાદિત રાખે છે. તેના બદલે, આ benchmark AI મોડલ્સને મૂળ સોર્સ કોડની પહોંચ વિના—Unix utilities અને cryptography થી લઈને bioinformatics અને data serialization સુધીના—સંપૂર્ણ, જટિલ પ્રોગ્રામ્સને શૂન્યથી ફરીથી અમલમાં (reimplement) લાવવાની જરૂરિયાત મૂકે છે. સાચી કાર્યકારી સમાનતા (functional equivalence) સુનિશ્ચિત કરવા માટે, દરેક AI-જનરેટેડ સોલ્યુશન એ છુપાયેલા end-to-end ટેસ્ટ પાસ કરવા આવશ્યક છે, જે મોડલ તેના ડેવલપમેન્ટ ફેઝ દરમિયાન ક્યારેય જોતું નથી.

આ કાર્યોનું પ્રમાણ અભૂતપૂર્વ છે. Benchmark માં એક ચોક્કસ કાર્ય માટે AI મોડલે કોઈપણ માનવીય હસ્તક્ષેપ વિના સતત 19 દિવસ સુધી કામ કરવું પડ્યું હતું, જેના પરિણામે એક જ રન માટે $2,600 નો ઇન્ફરન્સ ખર્ચ થયો હતો.

Claude Opus 4.7 રેસમાં મોખરે

Benchmark ના પરિણામો વર્તમાન frontier models માં એક સ્પષ્ટ શ્રેણી દર્શાવે છે. Claude Opus 4.7 56 ટકા solve rate સાથે લીડર તરીકે ઉભરી આવ્યું છે, જે GPT-5.5 (44 ટકા) અને Gemini 3.1 Pro Preview (32 ટકા) કરતા નોંધપાત્ર રીતે શ્રેષ્ઠ પ્રદર્શન કરે છે.

એક નોંધપાત્ર સફળતા bioinformatics toolkit gotree સાથે જોડાયેલી હતી. આ પ્રોગ્રામમાં અંદાજે 16,000 લાઇન્સનો Go કોડ છે અને તેમાં 40 થી વધુ અલગ-અલગ કમાન્ડ્સ છે. જ્યારે એક માનવ એન્જિનિયરને આવું કાર્ય પૂર્ણ કરવા માટે સામાન્ય રીતે 2 થી 17 અઠવાડિયાનો સમય લાગે છે, ત્યારે Claude Opus 4.7 એ માત્ર 14 કલાકમાં $251 ના ખર્ચ સાથે તેને સફળતાપૂર્વક રી-ઇમ્પ્લીમેન્ટ કર્યું. એવા કિસ્સાઓમાં પણ જ્યાં મોડલ્સ 100 ટકા સંપૂર્ણ રી-ઇમ્પ્લીમેન્ટેશન કરવામાં નિષ્ફળ જાય છે, ત્યાં તેઓ આશ્ચર્યજનક રીતે 90 ટકાથી વધુ functional ટેસ્ટ પાસ કરે છે.

જટિલતાનું અંતર અને મેમરાઈઝેશનના જોખમો

આ પ્રગતિ છતાં, MirrorCode ના પરિણામો એક સ્પષ્ટ "complexity ceiling" (જટિલતાની મર્યાદા) દર્શાવે છે. જોકે તમામ ટેસ્ટ કરેલા મોડલ્સ uuid અથવા parseqsv જેવા નાના પ્રોગ્રામ્સને વિશ્વસનીય રીતે હેન્ડલ કરે છે, પરંતુ હાલમાં કોઈ પણ મોડલ પાસે "large" કેટેગરીના કાર્યોને સંપૂર્ણ રીતે ઉકેલવાની ક્ષમતા નથી. AI કોડિંગનું ક્ષેત્ર હજુ પણ સૌથી વિશાળ અને પરસ્પર જોડાયેલા સોફ્ટવેર આર્કિટેક્ચર્સનો સામનો કરતી વખતે સંઘર્ષ કરે છે.

Epoch AI એ LLM ઇવેલ્યુએશનમાં એક ગંભીર ચિંતા પણ રજૂ કરી છે: data contamination. કારણ કે આ benchmark ઓપન-સોર્સ પ્રોગ્રામ્સનો ઉપયોગ કરે છે, તેથી એ જોખમ રહેલું છે કે મોડલ્સ તેમના ટ્રેનિંગ ફેઝ દરમિયાન મૂળ કોડને પહેલેથી જ યાદ (memorize) કરી લીધો હોય. જોકે પ્રારંભિક તારણો સૂચવે છે કે પ્રદર્શન માત્ર મેમરાઈઝેશન દ્વારા નથી થતું, તેમ છતાં સંશોધકો સ્વીકારે છે કે તેઓ વર્તમાન solve rates માં તેના યોગદાનને સંપૂર્ણપણે નકારી શકતા નથી.

AI ઉદ્યોગ માટે આ શા માટે મહત્વનું છે

MirrorCode "AI as a Copilot" થી "AI as an Autonomous Agent" તરફના પરિવર્તનને સંકેત આપે છે. મોડલ્સ 19 દિવસના સમયગાળા દરમિયાન તર્ક (reasoning) જાળવી રાખી શકે છે અને હજારો લાઇન્સના કોડને હેન્ડલ કરી શકે છે તે સાબિત કરીને, ઉદ્યોગ હવે આખા સોફ્ટવેર લાઇફસાયકલનું સંચાલન કરવા સક્ષમ એજન્ટ્સની નજીક પહોંચી રહ્યો છે. જેમ જેમ ઇન્ફરન્સ ખર્ચમાં વધઘટ થાય છે—GPT-5.5 તેના પૂર્વવર્તી કરતા ત્રણ ગણું વધુ ખર્ચાળ છે જ્યારે Claude Opus 4.7 ત્રણ ગણું વધુ કાર્યક્ષમ બન્યું છે—તેમ સ્વાયત્ત એન્જિનિયરિંગની આર્થિક વ્યવહારુતા આગામી મોટી સીમા બનશે.

મુખ્ય તારણો

Reasoningનું નવું સ્તર: MirrorCode વિશાળ ઇન્ફરન્સ બજેટની મંજૂરી આપીને AI ની મર્યાદાઓને આગળ ધપાવે છે, જેમાં એકલ કાર્યોનો ખર્ચ $2,600 સુધી પહોંચી શકે છે અને તે 19 દિવસ સુધી ચાલી શકે છે.
Claude પ્રદર્શનમાં મોખરે: Claude Opus 4.7 હાલમાં 56% solve rate સાથે benchmark લીડર છે, જે મોટા પાયે Go codebases ને રી-ઇમ્પ્લીમેન્ટ કરવામાં શ્રેષ્ઠ ક્ષમતા દર્શાવે છે.
જટિલતાના અવરોધો હજુ પણ છે: જ્યારે નાના પાયાના કાર્યો વિશ્વસનીય રીતે ઉકેલવામાં આવી રહ્યા છે, ત્યારે હજુ સુધી કોઈ પણ હાલનું મોડલ સૌથી જટિલ, મોટા પાયાના પ્રોગ્રામિંગ કાર્યોને સંપૂર્ણ રીતે ઉકેલી શકતું નથી.

નવા MirrorCode બેન્ચમાર્ક માં AI મોડલ્સ ૧૯ દિવસ સુધી સતત ચાલે છે

નવા MirrorCode Benchmark માં AI મોડલ્સ 19 દિવસ સુધી સતત ચાલ્યા

MirrorCode સાથે AI ને પડકાર

Claude Opus 4.7 રેસમાં મોખરે

જટિલતાનું અંતર અને મેમરાઈઝેશનના જોખમો

AI ઉદ્યોગ માટે આ શા માટે મહત્વનું છે

મુખ્ય તારણો

Continue reading

નવું AA બ્રીફકેસ બેન્ચમાર્ક વાસ્તવિક જ્ઞાનલક્ષી કાર્યમાં AI ના સંઘર્ષને દર્શાવે છે

Snowflake CEO: GLM 5.2 ખૂબ જ ઓછા ખર્ચે Claude Opus 4.7 ને ટક્કર આપે છે

AI ખર્ચમાં લાખો બચાવવા માટે Lindy એ Claude ને બદલે DeepSeek અપનાવ્યું

500 દિવસના સ્ટાર્ટઅપ સિમ્યુલેશનમાં માત્ર ત્રણ AI મોડલ્સ જ બચી શક્યા

Claude Sonnet 5: ઉચ્ચ પ્રદર્શન પાછળ ભાવમાં મોટો વધારો છુપાયેલ છે