Mifumo ya AI Inafanya Kazi Bila Kukoma kwa Siku 19 katika Kipimo Kipya cha MirrorCode

Mazingira ya uhandisi wa programu wa otomatiki (autonomous software engineering) yanabadilika kutoka vipande vidogo vya kodi hadi marathoni kubwa ya programu za siku nyingi. Kipimo kipya kutoka Epoch AI na METR, kinachoitwa MirrorCode, kinaonyesha kuwa mifumo ya AI sasa inaweza kushughulikia kazi tata za kutengeneza upya (reimplementation) ambazo hapo awali zilikuwa zinahitaji wiki kadhaa za kazi za binadamu.

Kuichangamoto AI kwa MirrorCode

MirrorCode inawakilisha mabadiliko makubwa kutoka kwa vipimo vya kawaida vya uhandisi wa programu ambavyo kwa kawaida huweka kikomo cha gharama za ufuatiliaji (inference costs) kati ya $1 hadi $10 kwa kila kazi. Badala yake, kipimo hiki kinahitaji mifumo ya AI kutengeneza upya programu kamili na tata kuanzia mwanzo—kuanzia zana za Unix na kriptografia hadi bioinformatiki na usawazishaji wa data (data serialization)—bila ufikiaji wa msimbo chanzo (source code) wa awali. Ili kuhakikisha usawa wa kweli wa utendaji, kila suluhisho lililotengenezwa na AI lazima lipitie majaribio ya mwisho hadi mwisho (end-to-end tests) yaliyofichwa ambayo mfumo haujawahi kuyaona wakati wa hatua yake ya maendeleo.

Ukubwa wa kazi hizi haujawahi kushuhudiwa. Kazi moja mahususi katika kipimo hiki ilimhitaji mfumo wa AI kufanya kazi mfululizo kwa siku 19 bila kuingiliwa na binadamu, jambo lililosababisha gharama ya ufuatiliaji ya $2,600 kwa mkondo mmoja.

Claude Opus 4.7 Inaongoza Mashindano

Matokeo ya kipimo haya yanaonyesha daraja la wazi katika mifumo ya kisasa ya mbele (frontier models). Claude Opus 4.7 ilitokea kama kiongozi ikiwa na kiwango cha utatuzi cha asilimia 56, ikifanya vizuri zaidi kuliko GPT-5.5, iliyofikia asilimia 44, na Gemini 3.1 Pro Preview, iliyofikia asilimia 32.

Mafanikio ya kipekee yalijumuisha kifaa cha bioinformatiki cha gotree. Programu hii inajumuisha takriban mistari 16,000 ya kodi ya Go na ina zaidi ya amri 40 tofauti. Wakati mhandisi wa binadamu kwa kawaida angehitaji kati ya wiki 2 hadi 17 kukamilisha kazi kama hiyo, Claude Opus 4.7 ilifanikiwa kuitengeneza upya katika saa 14 tu kwa gharama ya $251. Hata katika matukio ambapo mifumo inashindwa kufikia utengenezaji upya kamili wa asilimia 100, inashangaza kwamba inapita zaidi ya asilimia 90 ya majaribio ya utendaji.

Pengo la Ugumu na Hatari za Kukariri

Licha ya hatua hizi kubwa, matokeo ya MirrorCode yanaonyesha "kiwango cha juu cha ugumu" (complexity ceiling). Wakati mifumo yote iliyojaribiwa inashughulikia programu ndogo kama uuid au parseqsv kwa uaminifu, hakuna mfumo kwa sasa wenye uwezo wa kutatua kikamilifu kundi la kazi za "kubwa". Ufumo wa mbele wa uandishi wa kodi wa AI bado unapata changamoto linapokabiliwa na mifumo ya programu kubwa na iliyounganishwa kwa ukaribu.

Epoch AI pia ilishughulikia wasiwasi muhimu katika tathmini ya LLM: uchafuzi wa data (data contamination). Kwa kuwa kipimo hiki kinatumia programu za chanzo huru (open-source), kuna hatari kwamba mifumo tayari imekuwa imekariri msimbo wa awali wakati wa hatua zake za mafunzo. Ingawa matokeo ya awali yanaonyesha kuwa utendaji hauchochewi na kukariri pekee, watafiti wanakiri kuwa hawawezi kuondoa kabisa mchango wake katika viwango vya sasa vya utatuzi.

Kwa Nini Hii Ni Muhimu kwa Sekta ya AI

MirrorCode inaashiria mpito kutoka "AI kama Copilot" hadi "AI kama Wakala wa Otomatiki" (Autonomous Agent). Kwa kuthibitisha kuwa mifumo inaweza kudumisha uwezo wa kufikiri kwa kipindi cha siku 19 na kushughulikia maelfu ya mistari ya kodi, sekta hii inasogea karibu na wakala wenye uwezo wa kusimamia mzunguko mzima wa maisha ya programu. Wakati gharama za ufuatiliaji zinapobadilika—huku GPT-5.5 ikigharimu mara tatu zaidi ya iliyotangulia huku Claude Opus 4.7 ikiongezeka ufanisi mara tatu—uwezekano wa kiuchumi wa uhandisi wa otomatiki utakuwa mpaka mpya mkubwa.

Mambo Muhimu ya Kuzingatia

  • Kiwango Kipya cha Uwezo wa Kufikiri: MirrorCode inasukuma mipaka ya AI kwa kuruhusu bajeti kubwa za ufuatiliaji, ambapo kazi moja inaweza kugharimu hadi $2,600 na kuendelea kwa siku 19.
  • Claude Inaongoza katika Utendaji: Claude Opus 4.7 kwa sasa ndicho kiongozi cha kipimo hiki ikiwa na kiwango cha utat