പുതിയ MirrorCode ബെഞ്ച്മാർക്കിൽ AI മോഡലുകൾ 19 ദിവസമായി തുടർച്ചയായി പ്രവർത്തിക്കുന്നു

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialകഴിഞ്ഞ ആഴ്‌ച3min read

പുതിയ MirrorCode ബെഞ്ച്മാർക്കിൽ AI മോഡലുകൾ 19 ദിവസമായി തുടർച്ചയായി പ്രവർത്തിക്കുന്നു

In this article

പുതിയ MirrorCode ബെഞ്ച്മാർക്കിൽ AI മോഡലുകൾ 19 ദിവസം തുടർച്ചയായി പ്രവർത്തിക്കുന്നു

സ്വയംഭരണാധികാരമുള്ള (autonomous) സോഫ്റ്റ്‌വെയർ എഞ്ചിനീയറിംഗ് രംഗം ലളിതമായ കോഡ് സ്നിപ്പറ്റുകളിൽ നിന്ന് വലിയ രീതിയിലുള്ള, ദിവസങ്ങൾ നീണ്ടുനിൽക്കുന്ന പ്രോഗ്രാമിംഗ് മാരത്തണുകളിലേക്ക് മാറിക്കൊണ്ടിരിക്കുകയാണ്. Epoch AI-യും METR-ഉം ചേർന്ന് പുറത്തിറക്കിയ MirrorCode എന്ന പുതിയ ബെഞ്ച്മാർക്ക്, മുമ്പ് മനുഷ്യർക്ക് ആഴ്ചകൾ എടുത്തിരുന്ന സങ്കീർണ്ണമായ റീഇംപ്ലിമെന്റേഷൻ (reimplementation) ജോലികൾ ഇപ്പോൾ AI മോഡലുകൾക്ക് ചെയ്യാൻ കഴിയുമെന്ന് വെളിപ്പെടുത്തുന്നു.

MirrorCode ഉപയോഗിച്ച് AI-യെ വെല്ലുവിളിക്കുന്നു

സാധാരണയായി ഒരു ടാസ്കിന് 1 മുതൽ 10 ഡോളർ വരെ മാത്രം ഇൻഫറൻസ് ചിലവ് (inference cost) വരുന്ന പരമ്പരാഗത സോഫ്റ്റ്‌വെയർ എഞ്ചിനീയറിംഗ് ബെഞ്ച്മാർക്കുകളിൽ നിന്ന് MirrorCode തികച്ചും വ്യത്യസ്തമാണ്. പകരം, ഈ ബെഞ്ച്മാർക്കിൽ AI മോഡലുകൾ യഥാർത്ഥ സോഴ്സ് കോഡ് ഉപയോഗിക്കാതെ തന്നെ, Unix യൂട്ടിലിറ്റികൾ, ക്രിപ്റ്റോഗ്രാഫി മുതൽ ബയോ ഇൻഫോർമാറ്റിക്സ്, ഡാറ്റാ സീരിയലൈസേഷൻ എന്നിവ വരെയുള്ള സങ്കീർണ്ണമായ പ്രോഗ്രാമുകൾ ആദ്യം മുതൽ വീണ്ടും നിർമ്മിക്കേണ്ടതുണ്ട്. കൃത്യമായ ഫങ്ഷണൽ തുല്യത ഉറപ്പാക്കുന്നതിനായി, AI നിർമ്മിക്കുന്ന ഓരോ പരിഹാരവും അതിന്റെ വികസന ഘട്ടത്തിൽ മോഡൽ കാണാത്ത രഹസ്യമായ എൻഡ്-ടു-എൻഡ് ടെസ്റ്റുകൾ പാസാകേണ്ടതുണ്ട്.

ഈ ജോലികളുടെ വ്യാപ്തി അഭൂതപൂർവ്വമാണ്. ബെഞ്ച്മാർക്കിലെ ഒരു പ്രത്യേക ടാസ്ക് പൂർത്തിയാക്കാൻ ഒരു AI മോഡൽ മനുഷ്യസഹായമില്ലാതെ തുടർച്ചയായി 19 ദിവസം പ്രവർത്തിക്കേണ്ടി വന്നു, ഇതിന് ഒരു തവണ പ്രവർത്തിക്കാൻ മാത്രം 2,600 ഡോളർ ചിലവ് വന്നു.

മത്സരത്തിൽ മുന്നിൽ Claude Opus 4.7

നിലവിലെ മുൻനിര മോഡലുകൾക്കിടയിലുള്ള വ്യക്തമായ വ്യത്യാസം ബെഞ്ച്മാർക്ക് ഫലങ്ങൾ കാണിക്കുന്നു. 56 ശതമാനം സൊൾവ് റേറ്റോടെ (solve rate) Claude Opus 4.7 മുന്നിലെത്തി. ഇത് 44 ശതമാനം നേട്ടം കൈവരിച്ച GPT-5.5-യേക്കാളും 32 ശതമാനം നേട്ടം കൈവരിച്ച Gemini 3.1 Pro Preview-യേക്കാളും മികച്ച പ്രകടനമാണ് കാഴ്ചവെച്ചത്.

ബയോ ഇൻഫോർമാറ്റിക്സ് ടൂൾകിറ്റായ gotree-യുടെ വിജയം ശ്രദ്ധേയമാണ്. ഏകദേശം 16,000 വരികളുള്ള Go കോഡും 40-ലധികം വ്യത്യസ്ത കമാൻഡുകളും അടങ്ങിയതാണ് ഈ പ്രോഗ്രാം. ഒരു മനുഷ്യ എഞ്ചിനീയർക്ക് ഇത്തരമൊരു ജോലി പൂർത്തിയാക്കാൻ സാധാരണയായി 2 മുതൽ 17 ആഴ്ച വരെ സമയം വേണ്ടിവരും, എന്നാൽ Claude Opus 4.7 വെറും 14 മണിക്കൂർ കൊണ്ട് 251 ഡോളർ ചിലവിൽ ഇത് വിജയകരമായി നിർമ്മിച്ചു. മോഡലുകൾക്ക് 100 ശതമാനം കൃത്യതയോടെ റീഇംപ്ലിമെന്റേഷൻ നടത്താൻ കഴിയാത്ത സാഹചര്യങ്ങളിൽ പോലും, അവ 90 ശതമാനത്തിലധികം ഫങ്ഷണൽ ടെസ്റ്റുകൾ വിജയകരമായി പാസാകുന്നു എന്നത് ശ്രദ്ധേയമാണ്.

സങ്കീർണ്ണതയിലെ വിടവും മെമ്മറൈസേഷൻ റിസ്കുകളും

ഈ മുന്നേറ്റങ്ങൾക്കിടയിലും, MirrorCode ഫലങ്ങൾ ഒരു "സങ്കീർണ്ണതയുടെ പരിധി" (complexity ceiling) വെളിപ്പെടുത്തുന്നുണ്ട്. പരിശോധിച്ച എല്ലാ മോഡലുകളും uuid അല്ലെങ്കിൽ parseqsv പോലുള്ള ചെറിയ പ്രോഗ്രാമുകൾ വിശ്വസനീയമായി കൈകാര്യം ചെയ്യുന്നുണ്ടെങ്കിലും, "വലിയ" (large) വിഭാഗത്തിൽപ്പെട്ട ജോലികൾ പൂർണ്ണമായും പരിഹരിക്കാൻ നിലവിൽ ഒരു മോഡലിനും കഴിയില്ല. ഏറ്റവും വലിയതും പരസ്പരബന്ധിതവുമായ സോഫ്റ്റ്‌വെയർ ആർക്കിടെക്ചറുകൾ നേരിടുമ്പോൾ AI കോഡിംഗ് രംഗം ഇപ്പോഴും വെല്ലുവിളികൾ നേരിടുന്നുണ്ട്.

LLM മൂല്യനിർണ്ണയത്തിലെ ഒരു പ്രധാന ആശങ്കയായ ഡാറ്റാ കോൺടാമിനേഷനെ (data contamination) കുറിച്ചും Epoch AI സംസാരിക്കുന്നുണ്ട്. ഈ ബെഞ്ച്മാർക്ക് ഓപ്പൺ സോഴ്സ് പ്രോഗ്രാമുകൾ ഉപയോഗിക്കുന്നതിനാൽ, മോഡലുകൾ അവയുടെ പരിശീലന ഘട്ടത്തിൽ തന്നെ യഥാർത്ഥ കോഡ് മനഃപാഠമാക്കിയിട്ടുണ്ടാകാം എന്ന റിസ്ക് നിലനിൽക്കുന്നുണ്ട്. പ്രകടനം കേവലം മനഃപാഠമാക്കൽ (memorization) കൊണ്ട് മാത്രം ഉണ്ടാകുന്നതല്ലെന്ന് പ്രാഥമിക കണ്ടെത്തലുകൾ സൂചിപ്പിക്കുന്നുണ്ടെങ്കിലും, നിലവിലെ സൊൾവ് റേറ്റുകളിൽ ഇതിന് പങ്കുണ്ടെന്ന് പൂർണ്ണമായും തള്ളിക്കളയാനാവില്ലെന്ന് ഗവേഷകർ സമ്മതിക്കുന്നു.

എന്തുകൊണ്ടാണ് ഇത് AI വ്യവസായത്തിന് പ്രധാനമാകുന്നത്?

"AI ഒരു കോപൈലറ്റ് (Copilot)" എന്ന അവസ്ഥയിൽ നിന്ന് "AI ഒരു സ്വയംഭരണ ഏജന്റ് (Autonomous Agent)" എന്ന അവസ്ഥയിലേക്കുള്ള മാറ്റത്തെ MirrorCode സൂചിപ്പിക്കുന്നു. 19 ദിവസം നീണ്ടുനിൽക്കുന്ന കാലയളവിൽ ചിന്തിക്കാനും (reasoning) ആയിരക്കണക്കിന് വരികളുള്ള കോഡുകൾ കൈകാര്യം ചെയ്യാനും മോഡലുകൾക്ക് കഴിയുമെന്ന് തെളിയിക്കുന്നതിലൂടെ, മുഴുവൻ സോഫ്റ്റ്‌വെയർ ലൈഫ് സൈക്കിളുകളും നിയന്ത്രിക്കാൻ ശേഷിയുള്ള ഏജന്റുകളിലേക്ക് വ്യവസായം അടുക്കുകയാണ്. ഇൻഫറൻസ് ചിലവുകളിൽ മാറ്റങ്ങൾ സംഭവിക്കുമ്പോൾ—GPT-5.5 അതിന്റെ മുൻഗാമിയേക്കാൾ മൂന്നിരട്ടി ചിലവ് വരുത്തുമ്പോൾ, Claude Opus 4.7 മൂന്നിരട്ടി കൂടുതൽ കാര്യക്ഷമമായി മാറുമ്പോൾ—സ്വയംഭരണാധികാരമുള്ള എഞ്ചിനീയറിംഗിന്റെ സാമ്പത്തികമായ പ്രായോഗികത അടുത്ത വലിയ ലക്ഷ്യമായി മാറും.

പ്രധാന കാര്യങ്ങൾ

പുതിയ തലത്തിലുള്ള ചിന്താശേഷി: ഒറ്റ ടാസ്കിന് 2,600 ഡോളർ വരെ ചിലവ് വരുന്നതും 19 ദിവസം നീണ്ടുനിൽക്കുന്നതുമായ വലിയ ഇൻഫറൻസ് ബജറ്റുകൾ അനുവദിക്കുന്നതിലൂടെ MirrorCode AI-യുടെ പരിധികൾ വിപുലീകരിക്കുന്നു.
പ്രകടനത്തിൽ മുന്നിൽ Claude: 56% സൊൾവ് റേറ്റോടെ Claude Opus 4.7 നിലവിൽ ബെഞ്ച്മാർക്ക് ലീഡറാണ്, ഇത് വലിയ തോതിലുള്ള Go കോഡ്ബേസുകൾ റീഇംപ്ലിമെന്റ് ചെയ്യുന്നതിലെ മികച്ച കഴിവ് തെളിയിക്കുന്നു.
സങ്കീർണ്ണതയുടെ തടസ്സങ്ങൾ നിലനിൽക്കുന്നു: ചെറിയ തോതിലുള്ള ജോലികൾ വിശ്വസനീയമായി പരിഹരിക്കപ്പെടുന്നുണ്ടെങ്കിലും, ഏറ്റവും സങ്കീർണ്ണവും വലിയതുമായ പ്രോഗ്രാമിംഗ് ജോലികൾ പൂർണ്ണമായും കീഴടക്കാൻ നിലവിലുള്ള ഒരു മോഡലിനും ഇതുവരെ സാധിച്ചിട്ടില്ല.

പുതിയ MirrorCode ബെഞ്ച്മാർക്കിൽ AI മോഡലുകൾ 19 ദിവസമായി തുടർച്ചയായി പ്രവർത്തിക്കുന്നു

പുതിയ MirrorCode ബെഞ്ച്മാർക്കിൽ AI മോഡലുകൾ 19 ദിവസം തുടർച്ചയായി പ്രവർത്തിക്കുന്നു

MirrorCode ഉപയോഗിച്ച് AI-യെ വെല്ലുവിളിക്കുന്നു

മത്സരത്തിൽ മുന്നിൽ Claude Opus 4.7

സങ്കീർണ്ണതയിലെ വിടവും മെമ്മറൈസേഷൻ റിസ്കുകളും

എന്തുകൊണ്ടാണ് ഇത് AI വ്യവസായത്തിന് പ്രധാനമാകുന്നത്?

പ്രധാന കാര്യങ്ങൾ

Continue reading

New AA Briefcase Benchmark Reveals AI’s Struggle With Real Knowledge Work

Snowflake സിഇഒ: വളരെ കുറഞ്ഞ ചിലവിൽ GLM 5.2, Claude Opus 4.7-ന് വെല്ലുവിളിയാകുന്നു

വെറും 4 മാസത്തിനുള്ളിൽ ഉബർ തങ്ങളുടെ മുഴുവൻ AI കോഡിംഗ് ബജറ്റും തീർത്തു

Lindy Swaps Claude for DeepSeek to Save Millions in AI Costs

500 ദിവസത്തെ സ്റ്റാർട്ടപ്പ് സിമുലേഷനിൽ മൂന്ന് AI മോഡലുകൾ മാത്രമാണ് അതിജീവിച്ചത്