എന്തുകൊണ്ടാണ് AI കോഡിംഗ് ഏജന്റുകൾ പരാജയപ്പെടുന്നത്: ഫയലുകൾക്കും വരികൾക്കുമിടയിലുള്ള നിർണ്ണായകമായ വിടവ്
സോഫ്റ്റ്വെയർ ബഗുകൾ പരിഹരിക്കുന്നതിൽ AI കോഡിംഗ് ഏജന്റുകൾ കൂടുതൽ പ്രാപ്തരാണെങ്കിലും, അവ വലിയൊരു "localization" പ്രശ്നം നേരിടുന്നുണ്ടെന്ന് പുതിയൊരു പഠനം വെളിപ്പെടുത്തുന്നു. ഒരു വലിയ കോഡ്ബേസിനുള്ളിൽ ശരിയായ ഫയലിലേക്ക് അവയ്ക്ക് എത്തിച്ചേരാൻ സാധിക്കുമെങ്കിലും, ഒരു ബഗ് പരിഹരിക്കാൻ ആവശ്യമായ കൃത്യമായ കോഡ് വരികൾ തിരിച്ചറിയുന്നതിൽ അവ പലപ്പോഴും പരാജയപ്പെടുന്നു.
SWE-Explore പരിചയപ്പെടുത്തുന്നു: റിപ്പയർ നിരക്കുകൾക്കപ്പുറത്തേക്ക്
ചരിത്രപരമായി, AI കോഡിംഗ് ഏജന്റുകളുടെ ഫലപ്രാപ്തി അളക്കുന്നത് ഒരു സിംഗിൾ ബൈനറി മെട്രിക് ഉപയോഗിച്ചാണ്: ഏജന്റ് ബഗ് പരിഹരിച്ചോ ഇല്ലയോ? ഈ സമീപനം പരാജയത്തിന് പിന്നിലെ "കാരണം" അവഗണിക്കുന്നു. ഒരു റിപ്പയർ പരാജയപ്പെട്ടാൽ, അതിനർത്ഥം ഏജന്റ് തെറ്റായ ഒരു പാച്ച് (patch) എഴുതി എന്നോ, അല്ലെങ്കിൽ ഏജന്റ് പ്രസക്തമായ ലോജിക് പരിശോധിക്കുക പോലും ചെയ്തില്ല എന്നോ ആകാം.
ഈ പോരായ്മ പരിഹരിക്കുന്നതിനായി, Shanghai Jiao Tong University-യിലെ ശാസ്ത്രജ്ഞർ ഉൾപ്പെടെയുള്ള ഒരു അന്താരാഷ്ട്ര ഗവേഷണ സംഘം SWE-Explore വികസിപ്പിച്ചെടുത്തു. പരമ്പരാഗത ബെഞ്ച്മാർക്കുകളിൽ നിന്ന് വ്യത്യസ്തമായി, SWE-Explore അപ്സ്ട്രീം സെർച്ച് ഘട്ടത്തെ (upstream search phase) വേർതിരിച്ചു കാണിക്കുന്നു. ഒരു ബഗ് വിവരണത്തിൽ നിന്ന് പ്രശ്നവുമായി ബന്ധപ്പെട്ട കൃത്യമായ കോഡ് ഭാഗങ്ങളുടെ ക്രമീകരിച്ച പട്ടിക നൽകാനുള്ള ഏജന്റിന്റെ കഴിവിനെ ഇത് വിലയിരുത്തുന്നു. 203 ഓപ്പൺ സോഴ്സ് പ്രോജക്റ്റുകളിൽ നിന്നുള്ള 848 ടാസ്ക്കുകളിൽ നിന്നും പത്ത് പ്രോഗ്രാമിംഗ് ഭാഷകളിൽ നിന്നുമുള്ള വിപുലമായ ഡാറ്റാസെറ്റാണ് ഇതിനായി ഉപയോഗിച്ചിരിക്കുന്നത്; ഇതിൽ Python ആണ് ഏറ്റവും പ്രധാനപ്പെട്ടത് (547 ടാസ്ക്കുകൾ).
കൃത്യതയിലെ വിടവ്: ഫയൽ വിജയവും വരികളിലെ പരാജയവും
ഫയൽ തലത്തിലുള്ള കൃത്യതയും വരി തലത്തിലുള്ള കൃത്യതയും തമ്മിലുള്ള വലിയ വ്യത്യാസമാണ് ഈ പഠനത്തിലെ ഏറ്റവും ശ്രദ്ധേയമായ കണ്ടെത്തൽ. Claude Code, Codex, OpenHands തുടങ്ങിയ ജനറൽ പർപ്പസ് ഏജന്റുകളെ പരീക്ഷിച്ചപ്പോൾ ലഭിച്ച ഫലങ്ങൾ വ്യക്തമാണ്:
- ഫയൽ തലത്തിലുള്ള കൃത്യത: ഏജന്റുകൾ മികച്ച രീതിയിൽ പ്രവർത്തിക്കുന്നു, ശരിയായ സോഴ്സ് ഫയലുകൾ വിജയകരമായി തിരിച്ചറിയുകയും അവയ്ക്ക് ഉയർന്ന റാങ്ക് നൽകുകയും ചെയ്യുന്നു.
- വരി തലത്തിലുള്ള കൃത്യത: പ്രകടനം തകർച്ച നേരിടുന്നു. ഒരു ബഗ് പരിഹരിക്കാൻ ആവശ്യമായ യഥാർത്ഥ കോഡ് വരികളിൽ 14% മുതൽ 19% വരെ മാത്രമാണ് ജനറൽ കോഡിംഗ് ഏജന്റുകൾ ഉൾപ്പെടുത്തിയത്.
രസകരമായ കാര്യം, അടിസ്ഥാനപരമായ Large Language Model (LLM) അപ്ഗ്രേഡ് ചെയ്യുന്നത് കൊണ്ട് മാത്രം ഈ പ്രശ്നം പരിഹരിക്കാനാവില്ല എന്നതാണ്. OpenAI, Anthropic, Google, Moonshot അല്ലെങ്കിൽ Zhipu എന്നിവയിൽ നിന്നുള്ള മോഡലുകൾ ഉപയോഗിച്ചാലും, ഫലങ്ങൾ ഒരുപോലെയാണ്: ഫയലുകൾ കണ്ടെത്തുന്നതിൽ ഉയർന്ന നിരക്ക്, എന്നാൽ വരികൾ കണ്ടെത്തുന്നതിൽ വളരെ കുറഞ്ഞ നിരക്ക്. കോഡിനെ പരസ്പരം ബന്ധിപ്പിക്കപ്പെട്ട ബ്ലോക്കുകളുടെ ഒരു ശൃംഖലയായി പരിഗണിക്കുന്നതിലൂടെ CoSIL പോലുള്ള പ്രത്യേക സിസ്റ്റങ്ങൾ ജനറൽ ഏജന്റുകളെക്കാൾ മികച്ച പ്രകടനം കാഴ്ചവെച്ചതായി ഗവേഷണം ചൂണ്ടിക്കാട്ടുന്നു. ഇത് സൂചിപ്പിക്കുന്നത് മോഡലിന്റെ കരുത്തിനേക്കാൾ ഉപരിയായി ആർക്കിടെക്ചറൽ മാറ്റങ്ങളാണ് കൂടുതൽ പ്രധാനമെന്നാണ്.
ത്രെഷോൾഡ് ഇഫക്റ്റ് (Threshold Effect): എന്തുകൊണ്ട് "കൂടുതൽ വായിക്കുന്നത്" പ്രധാനമാകുന്നു
നിയന്ത്രിത അബ്ലേഷൻ പരീക്ഷണങ്ങളിലൂടെ (controlled ablation experiments), കോൺടെക്സ്റ്റിനെ സംബന്ധിച്ച ഒരു "ത്രെഷോൾഡ് ഇഫക്റ്റ്" (threshold effect) ഗവേഷകർ കണ്ടെത്തി. മോഡലിന് നൽകുന്ന പ്രധാന കോഡിന്റെ അളവ് (0% മുതൽ 100% വരെ) വ്യത്യാസപ്പെടുത്തിക്കൊണ്ട് നടത്തിയ പരീക്ഷണത്തിൽ, കോഡ് റിപ്പയറുകൾ രേഖീയമായ രീതിയിൽ (linearly) മെച്ചപ്പെടുന്നില്ലെന്ന് അവർ കണ്ടെത്തി.
എളുപ്പമുള്ള ജോലികളിൽ, ഒരു വ്യക്തമായ നിർണ്ണായക ഘട്ടം (tipping point) കാണാം: ഒരു ഏജന്റ് ആവശ്യമായ പ്രധാന ഭാഗങ്ങളിൽ 50%-ൽ താഴെ മാത്രം കാണുന്നുവെങ്കിൽ, റിപ്പയർ വിജയ നിരക്ക് പൂജ്യത്തിന് അടുത്തായിരിക്കും. ഏജന്റിന് ആവശ്യമായ കോൺടെക്സ്റ്റിന്റെ 50% മുതൽ 75% വരെ ലഭിക്കുമ്പോൾ മാത്രമാണ് വിജയകരമായ റിപ്പയറുകളിൽ വലിയ വർദ്ധനവ് ഉണ്ടാകുന്നത്. പ്രധാനമായും, അനാവശ്യമായ "നോയിസ്" (noise) കോഡ് നൽകുന്നത്, നിർണ്ണായകമായ വരികൾ വിട്ടുപോയിക്കുന്നതുപോലെ പ്രകടനത്തെ ബാധിക്കില്ലെന്ന് പഠനം കണ്ടെത്തി. ഡെവലപ്പർമാർക്കുള്ള പാഠം വ്യക്തമാണ്: AI ഏജന്റുകളുടെ ഈ കാലഘട്ടത്തിൽ, അത്യാവശ്യമായ വിവരങ്ങൾ ഒഴിവാക്കി റിസ്ക് എടുക്കുന്നതിനേക്കാൾ കൂടുതൽ കോൺടെക്സ്റ്റ് നൽകുന്നതാണ് നല്ലത്.
പ്രധാന കാര്യങ്ങൾ
- ലോക്കലൈസേഷൻ ആണ് തടസ്സം (Localization is the bottleneck): ശരിയായ ഫയൽ കണ്ടെത്താൻ AI ഏജന്റുകൾക്ക് പ്രാവീണ്യമുണ്ടെങ്കിലും, ഒരു പരിഹാരത്തിന് ആവശ്യമായ കോഡിന്റെ കൃത്യമായ വരികൾ കണ്ടെത്താൻ അവ വലിയ ബുദ്ധിമുട്ട് നേരിടുന്നു.
- മോഡൽ സ്കെയിലിംഗ് ഒരു പരിഹാരമല്ല (Model scaling isn't a silver bullet): കൂടുതൽ കരുത്തുറ്റ LLM-കളിലേക്ക് അപ്ഗ്രേഡ് ചെയ്യുന്നത് വരികളുടെ കൃത്യതയിലുള്ള (line-level accuracy) കുറവ് പരിഹരിക്കില്ല; CoSIL പോലുള്ള പ്രത്യേക ആർക്കിടെക്ചറൽ സമീപനങ്ങളാണ് കൂടുതൽ ഫലപ്രദം.
- 50% കോൺടെക്സ്റ്റ് നിയമം (The 50% Context Rule): AI റിപ്പയർ വിജയം ഒരു ത്രെഷോൾഡ് പാറ്റേൺ പിന്തുടരുന്നു; വിജയകരമായ പരിഹാരങ്ങൾ സാധ്യമാകണമെങ്കിൽ പ്രസക്തമായ കോഡ് കോൺടെക്സ്റ്റിന്റെ കുറഞ്ഞത് 50-75% എങ്കിലും ലഭ്യമാകേണ്ടതുണ്ട്.