പുതിയ MirrorCode ബെഞ്ച്മാർക്കിൽ AI മോഡലുകൾ 19 ദിവസം തുടർച്ചയായി പ്രവർത്തിക്കുന്നു

സ്വയംഭരണാധികാരമുള്ള (autonomous) സോഫ്റ്റ്‌വെയർ എഞ്ചിനീയറിംഗ് രംഗം ലളിതമായ കോഡ് സ്നിപ്പറ്റുകളിൽ നിന്ന് വലിയ രീതിയിലുള്ള, ദിവസങ്ങൾ നീണ്ടുനിൽക്കുന്ന പ്രോഗ്രാമിംഗ് മാരത്തണുകളിലേക്ക് മാറിക്കൊണ്ടിരിക്കുകയാണ്. Epoch AI-യും METR-ഉം ചേർന്ന് പുറത്തിറക്കിയ MirrorCode എന്ന പുതിയ ബെഞ്ച്മാർക്ക്, മുമ്പ് മനുഷ്യർക്ക് ആഴ്ചകൾ എടുത്തിരുന്ന സങ്കീർണ്ണമായ റീഇംപ്ലിമെന്റേഷൻ (reimplementation) ജോലികൾ ഇപ്പോൾ AI മോഡലുകൾക്ക് ചെയ്യാൻ കഴിയുമെന്ന് വെളിപ്പെടുത്തുന്നു.

MirrorCode ഉപയോഗിച്ച് AI-യെ വെല്ലുവിളിക്കുന്നു

സാധാരണയായി ഒരു ടാസ്കിന് 1 മുതൽ 10 ഡോളർ വരെ മാത്രം ഇൻഫറൻസ് ചിലവ് (inference cost) വരുന്ന പരമ്പരാഗത സോഫ്റ്റ്‌വെയർ എഞ്ചിനീയറിംഗ് ബെഞ്ച്മാർക്കുകളിൽ നിന്ന് MirrorCode തികച്ചും വ്യത്യസ്തമാണ്. പകരം, ഈ ബെഞ്ച്മാർക്കിൽ AI മോഡലുകൾ യഥാർത്ഥ സോഴ്സ് കോഡ് ഉപയോഗിക്കാതെ തന്നെ, Unix യൂട്ടിലിറ്റികൾ, ക്രിപ്റ്റോഗ്രാഫി മുതൽ ബയോ ഇൻഫോർമാറ്റിക്സ്, ഡാറ്റാ സീരിയലൈസേഷൻ എന്നിവ വരെയുള്ള സങ്കീർണ്ണമായ പ്രോഗ്രാമുകൾ ആദ്യം മുതൽ വീണ്ടും നിർമ്മിക്കേണ്ടതുണ്ട്. കൃത്യമായ ഫങ്ഷണൽ തുല്യത ഉറപ്പാക്കുന്നതിനായി, AI നിർമ്മിക്കുന്ന ഓരോ പരിഹാരവും അതിന്റെ വികസന ഘട്ടത്തിൽ മോഡൽ കാണാത്ത രഹസ്യമായ എൻഡ്-ടു-എൻഡ് ടെസ്റ്റുകൾ പാസാകേണ്ടതുണ്ട്.

ഈ ജോലികളുടെ വ്യാപ്തി അഭൂതപൂർവ്വമാണ്. ബെഞ്ച്മാർക്കിലെ ഒരു പ്രത്യേക ടാസ്ക് പൂർത്തിയാക്കാൻ ഒരു AI മോഡൽ മനുഷ്യസഹായമില്ലാതെ തുടർച്ചയായി 19 ദിവസം പ്രവർത്തിക്കേണ്ടി വന്നു, ഇതിന് ഒരു തവണ പ്രവർത്തിക്കാൻ മാത്രം 2,600 ഡോളർ ചിലവ് വന്നു.

മത്സരത്തിൽ മുന്നിൽ Claude Opus 4.7

നിലവിലെ മുൻനിര മോഡലുകൾക്കിടയിലുള്ള വ്യക്തമായ വ്യത്യാസം ബെഞ്ച്മാർക്ക് ഫലങ്ങൾ കാണിക്കുന്നു. 56 ശതമാനം സൊൾവ് റേറ്റോടെ (solve rate) Claude Opus 4.7 മുന്നിലെത്തി. ഇത് 44 ശതമാനം നേട്ടം കൈവരിച്ച GPT-5.5-യേക്കാളും 32 ശതമാനം നേട്ടം കൈവരിച്ച Gemini 3.1 Pro Preview-യേക്കാളും മികച്ച പ്രകടനമാണ് കാഴ്ചവെച്ചത്.

ബയോ ഇൻഫോർമാറ്റിക്സ് ടൂൾകിറ്റായ gotree-യുടെ വിജയം ശ്രദ്ധേയമാണ്. ഏകദേശം 16,000 വരികളുള്ള Go കോഡും 40-ലധികം വ്യത്യസ്ത കമാൻഡുകളും അടങ്ങിയതാണ് ഈ പ്രോഗ്രാം. ഒരു മനുഷ്യ എഞ്ചിനീയർക്ക് ഇത്തരമൊരു ജോലി പൂർത്തിയാക്കാൻ സാധാരണയായി 2 മുതൽ 17 ആഴ്ച വരെ സമയം വേണ്ടിവരും, എന്നാൽ Claude Opus 4.7 വെറും 14 മണിക്കൂർ കൊണ്ട് 251 ഡോളർ ചിലവിൽ ഇത് വിജയകരമായി നിർമ്മിച്ചു. മോഡലുകൾക്ക് 100 ശതമാനം കൃത്യതയോടെ റീഇംപ്ലിമെന്റേഷൻ നടത്താൻ കഴിയാത്ത സാഹചര്യങ്ങളിൽ പോലും, അവ 90 ശതമാനത്തിലധികം ഫങ്ഷണൽ ടെസ്റ്റുകൾ വിജയകരമായി പാസാകുന്നു എന്നത് ശ്രദ്ധേയമാണ്.

സങ്കീർണ്ണതയിലെ വിടവും മെമ്മറൈസേഷൻ റിസ്കുകളും

ഈ മുന്നേറ്റങ്ങൾക്കിടയിലും, MirrorCode ഫലങ്ങൾ ഒരു "സങ്കീർണ്ണതയുടെ പരിധി" (complexity ceiling) വെളിപ്പെടുത്തുന്നുണ്ട്. പരിശോധിച്ച എല്ലാ മോഡലുകളും uuid അല്ലെങ്കിൽ parseqsv പോലുള്ള ചെറിയ പ്രോഗ്രാമുകൾ വിശ്വസനീയമായി കൈകാര്യം ചെയ്യുന്നുണ്ടെങ്കിലും, "വലിയ" (large) വിഭാഗത്തിൽപ്പെട്ട ജോലികൾ പൂർണ്ണമായും പരിഹരിക്കാൻ നിലവിൽ ഒരു മോഡലിനും കഴിയില്ല. ഏറ്റവും വലിയതും പരസ്പരബന്ധിതവുമായ സോഫ്റ്റ്‌വെയർ ആർക്കിടെക്ചറുകൾ നേരിടുമ്പോൾ AI കോഡിംഗ് രംഗം ഇപ്പോഴും വെല്ലുവിളികൾ നേരിടുന്നുണ്ട്.

LLM മൂല്യനിർണ്ണയത്തിലെ ഒരു പ്രധാന ആശങ്കയായ ഡാറ്റാ കോൺടാമിനേഷനെ (data contamination) കുറിച്ചും Epoch AI സംസാരിക്കുന്നുണ്ട്. ഈ ബെഞ്ച്മാർക്ക് ഓപ്പൺ സോഴ്സ് പ്രോഗ്രാമുകൾ ഉപയോഗിക്കുന്നതിനാൽ, മോഡലുകൾ അവയുടെ പരിശീലന ഘട്ടത്തിൽ തന്നെ യഥാർത്ഥ കോഡ് മനഃപാഠമാക്കിയിട്ടുണ്ടാകാം എന്ന റിസ്ക് നിലനിൽക്കുന്നുണ്ട്. പ്രകടനം കേവലം മനഃപാഠമാക്കൽ (memorization) കൊണ്ട് മാത്രം ഉണ്ടാകുന്നതല്ലെന്ന് പ്രാഥമിക കണ്ടെത്തലുകൾ സൂചിപ്പിക്കുന്നുണ്ടെങ്കിലും, നിലവിലെ സൊൾവ് റേറ്റുകളിൽ ഇതിന് പങ്കുണ്ടെന്ന് പൂർണ്ണമായും തള്ളിക്കളയാനാവില്ലെന്ന് ഗവേഷകർ സമ്മതിക്കുന്നു.

എന്തുകൊണ്ടാണ് ഇത് AI വ്യവസായത്തിന് പ്രധാനമാകുന്നത്?

"AI ഒരു കോപൈലറ്റ് (Copilot)" എന്ന അവസ്ഥയിൽ നിന്ന് "AI ഒരു സ്വയംഭരണ ഏജന്റ് (Autonomous Agent)" എന്ന അവസ്ഥയിലേക്കുള്ള മാറ്റത്തെ MirrorCode സൂചിപ്പിക്കുന്നു. 19 ദിവസം നീണ്ടുനിൽക്കുന്ന കാലയളവിൽ ചിന്തിക്കാനും (reasoning) ആയിരക്കണക്കിന് വരികളുള്ള കോഡുകൾ കൈകാര്യം ചെയ്യാനും മോഡലുകൾക്ക് കഴിയുമെന്ന് തെളിയിക്കുന്നതിലൂടെ, മുഴുവൻ സോഫ്റ്റ്‌വെയർ ലൈഫ് സൈക്കിളുകളും നിയന്ത്രിക്കാൻ ശേഷിയുള്ള ഏജന്റുകളിലേക്ക് വ്യവസായം അടുക്കുകയാണ്. ഇൻഫറൻസ് ചിലവുകളിൽ മാറ്റങ്ങൾ സംഭവിക്കുമ്പോൾ—GPT-5.5 അതിന്റെ മുൻഗാമിയേക്കാൾ മൂന്നിരട്ടി ചിലവ് വരുത്തുമ്പോൾ, Claude Opus 4.7 മൂന്നിരട്ടി കൂടുതൽ കാര്യക്ഷമമായി മാറുമ്പോൾ—സ്വയംഭരണാധികാരമുള്ള എഞ്ചിനീയറിംഗിന്റെ സാമ്പത്തികമായ പ്രായോഗികത അടുത്ത വലിയ ലക്ഷ്യമായി മാറും.

പ്രധാന കാര്യങ്ങൾ

  • പുതിയ തലത്തിലുള്ള ചിന്താശേഷി: ഒറ്റ ടാസ്കിന് 2,600 ഡോളർ വരെ ചിലവ് വരുന്നതും 19 ദിവസം നീണ്ടുനിൽക്കുന്നതുമായ വലിയ ഇൻഫറൻസ് ബജറ്റുകൾ അനുവദിക്കുന്നതിലൂടെ MirrorCode AI-യുടെ പരിധികൾ വിപുലീകരിക്കുന്നു.
  • പ്രകടനത്തിൽ മുന്നിൽ Claude: 56% സൊൾവ് റേറ്റോടെ Claude Opus 4.7 നിലവിൽ ബെഞ്ച്മാർക്ക് ലീഡറാണ്, ഇത് വലിയ തോതിലുള്ള Go കോഡ്ബേസുകൾ റീഇംപ്ലിമെന്റ് ചെയ്യുന്നതിലെ മികച്ച കഴിവ് തെളിയിക്കുന്നു.
  • സങ്കീർണ്ണതയുടെ തടസ്സങ്ങൾ നിലനിൽക്കുന്നു: ചെറിയ തോതിലുള്ള ജോലികൾ വിശ്വസനീയമായി പരിഹരിക്കപ്പെടുന്നുണ്ടെങ്കിലും, ഏറ്റവും സങ്കീർണ്ണവും വലിയതുമായ പ്രോഗ്രാമിംഗ് ജോലികൾ പൂർണ്ണമായും കീഴടക്കാൻ നിലവിലുള്ള ഒരു മോഡലിനും ഇതുവരെ സാധിച്ചിട്ടില്ല.