Kwa Nini Wakala wa Uandishi wa Kodi wa AI Wanashindwa: Pengo Muhimu Kati ya Faili na Mistari

Ingawa wakala wa uandishi wa kodi wa AI wana uwezo unaoongezeka wa kutatua hitilafu za programu, utafiti mpya unaonyesha kuwa wanapata tatizo kubwa la "localization" (utambuzi wa mahali). Wanaweza kufika kwenye faili sahihi ndani ya kanuni kubwa ya kodi (codebase), lakini mara nyingi wanashindwa kutambua mistari mahususi ya kodi inayohitajika kutekeleza marekebisho.

Kutambulisha SWE-Explore: Kwenda Mbali Zaidi ya Viwango vya Marekebisho

Kihistoria, ufanisi wa wakala wa uandishi wa kodi wa AI umekuwa ukipimwa kwa kipimo kimoja tu: je, wakala alirekebisha hitilafu au la? Mtazamo huu unapuuzia sababu ya kushindwa. Marekebisho yaliyoshindwa yanaweza kumaanisha kuwa wakala aliandika marekebisho (patch) mbaya, au inaweza kumaanisha kuwa wakala hakuwahi hata kuangalia mantiki (logic) husika.

Ili kushughulikia pengo hili, timu ya kimataifa ya utafiti, ikijumuisha wanasayansi kutoka Chuo Kikuu cha Shanghai Jiao Tong, iliunda SWE-Explore. Tofauti na vigezo vya kawaida (benchmarks), SWE-Explore inatenga hatua ya utafutaji wa awali. Inatathmini uwezo wa wakala kuchukua maelezo ya hitilafu na kutoa orodha iliyopangwa ya sehemu mahususi za kodi ambazo zina uhusiano halisi na tatizo. Seti ya data ni kubwa, ikitokana na kazi 848 katika miradi 203 ya chanzo huru (open-source) na lugha kumi za programu, huku Python ikiwa maarufu zaidi (kazi 547).

Pengo la Usahihi: Mafanikio ya Faili dhidi ya Kushindwa kwa Mistari

Ugunduzi wa kushtua zaidi wa utafiti huu ni tofauti kubwa kati ya usahihi wa kiwango cha faili na kiwango cha mstari. Wakipimwa dhidi ya wakala wa jumla kama Claude Code, Codex, na OpenHands, matokeo yalikuwa ya wazi:

  • Usahihi wa kiwango cha faili: Wakala hufanya vizuri, wakitambua faili sahihi za chanzo na kuzipa kipaumbele kikubwa.
  • Usahihi wa kiwango cha mstari: Utendaji unaporomoka. Wakala wa jumla wa uandishi wa kodi walihusisha mistari tu ya 14% hadi 19% ya kodi halisi iliyohitajika kwa marekebisho.

Inashangaza kwamba, kuboresha tu Mtindo Mkubwa wa Lugha (LLM) hakutatua hili. Iwe unatumia mifano kutoka OpenAI, Anthropic, Google, Moonshot, au Zhipu, mfumo unabaki ule ule: viwango vya juu vya kupata faili lakini ufunikaji wa mistari ni duni sana. Utafiti ulibainisha kuwa mifumo maalum kama CoSIL ilifanya vizuri zaidi kuliko wakala wa jumla kwa kuchukulia kodi kama mtandao wa vipengele vilivyounganishwa, ikidokeza kuwa mabadiliko ya usanifu ni muhimu zaidi kuliko nguvu ghafi ya modeli.

Athari ya Kiwango: Kwa Nini "Kusoma Zaidi" ni Muhimu

Kupitia majaribio ya ablation yaliyodhibitiwa, watafiti waligundua "athari ya threshold" kuhusiana na muktadha. Kwa kubadilisha kiasi cha msimbo msingi kinachotolewa kwa modeli (kuanzia 0% hadi 100%), waligundua kuwa marekebisho hayaboreki kwa uwiano wa moja kwa moja.

Kwa kazi rahisi, kuna hatua ya mabadiliko iliyo wazi: ikiwa wakala anaona chini ya 50% ya maeneo muhimu ya msingi, kiwango cha mafanikio ya marekebisho kinabaki karibu na sifuri. Ongezeko kubwa la marekebisho yenye mafanikio hutokea tu wakati wakala anapata ufikiaji wa kati ya 50% na 75% ya muktadha unaohitajika. Muhimu zaidi, utafiti uligundua kuwa kutoa msimbo wa "noise" usiohusika haudhuru utendaji kama vile kukosekana kwa mistari muhimu. Funzo kwa watengenezaji ni wazi: katika enzi ya wakala wa AI, ni bora kutoa muktadha zaidi kuliko kujihatarisha kuchuja maelezo muhimu.

Mafunzo Muhimu

  • Localization ndicho kizuizi: Wakala wa AI wana uwezo mkubwa wa kupata faili sahihi lakini wanapata ugumu mkubwa kubainisha mistari mahususi ya msimbo inayohitajika kwa marekebisho.
  • Kupanua modeli si suluhisho la pekee: Kuongeza nguvu kwa kutumia LLMs zenye uwezo mkubwa hakurekebishi pengo la usahihi katika kiwango cha mstari; mbinu maalum za usanifu kama CoSIL zina ufanisi zaidi.
  • Kanuni ya Muktadha ya 50%: Mafanikio ya marekebisho ya AI hufuata mfumo wa threshold, yakihitaji angalau 50-75% ya muktadha wa msimbo unaohusika uonekane kabla ya marekebisho yenye mafanikio kuwa na uwezekano.