Why AI Coding Agents Fail: The Critical Gap Between Files and Lines

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 வாரங்களுக்கு முன்3min read

In this article

ஏன் AI கோடிங் ஏஜெண்டுகள் தோல்வியடைகின்றன: கோப்புகள் மற்றும் வரிகளுக்கு இடையிலான முக்கியமான இடைவெளி

AI கோடிங் ஏஜெண்டுகள் மென்பொருள் பிழைகளைத் தீர்க்கும் திறன் பெற்று வந்தாலும், அவை ஒரு குறிப்பிடத்தக்க "localization" (இருப்பிடத்தைக் கண்டறிதல்) சிக்கலைச் சந்திக்கின்றன என்று ஒரு புதிய ஆய்வு வெளிப்படுத்துகிறது. ஒரு மிகப்பெரிய கோப்புத் தொகுப்பிற்குள் (codebase) சரியான கோப்பிற்குச் செல்ல அவற்றால் முடியும், ஆனால் ஒரு பிழையைச் சரிசெய்யத் தேவையான குறிப்பிட்ட வரிகளைக் கண்டறிவதில் அவை அடிக்கடி தோல்வியடைகின்றன.

SWE-Explore அறிமுகம்: சரிசெய்யும் விகிதங்களைத் தாண்டிச் செல்லுதல்

வரலாற்று ரீதியாக, AI கோடிங் ஏஜெண்டுகளின் செயல்திறன் ஒரு ஒற்றை, இரும அளவீட்டைக் கொண்டு அளவிடப்படுகிறது: ஏஜெண்ட் பிழையைச் சரிசெய்ததா இல்லையா? இந்த அணுகுமுறை தோல்விக்கு பின்னால் உள்ள "ஏன்" என்பதைப் புறக்கணிக்கிறது. ஒரு தோல்வியுற்ற சரிசெய்தல் என்பது ஏஜெண்ட் ஒரு தவறான பேட்ச்சை (patch) எழுதியிருக்கலாம் அல்லது ஏஜெண்ட் தொடர்புடைய தர்க்கத்தையே (logic) பார்க்காமல் இருந்திருக்கலாம் என்பதைக் குறிக்கலாம்.

இந்தத் தெரியாத பகுதியை (blind spot) நிவர்த்தி செய்ய, ஷாங்காய் ஜியாவ் டோங் பல்கலைக்கழக விஞ்ஞானிகள் உட்பட ஒரு சர்வதேச ஆராய்ச்சி குழு SWE-Explore-ஐ உருவாக்கியது. பாரம்பரிய அளவுகோல்களைப் போலன்றி, SWE-Explore ஆரம்பகட்டத் தேடல் கட்டத்தை (upstream search phase) தனிமைப்படுத்துகிறது. ஒரு பிழை விளக்கத்தைப் பெற்று, அந்தப் பிரச்சனைக்கு உண்மையில் தொடர்புடைய குறிப்பிட்ட குறியீடுப் பகுதிகளை வரிசைப்படுத்தப்பட்ட பட்டியலாகத் தரும் ஏஜெண்டின் திறனை இது மதிப்பீடு செய்கிறது. இந்தத் தரவுத்தொகுப்பு (dataset) விரிவானது; இது 203 திறந்த மூலத் திட்டங்கள் (open-source projects) மற்றும் பத்து நிரலாக்க மொழிகளில் உள்ள 848 பணிகளிலிருந்து பெறப்பட்டது, இதில் Python மிகவும் முக்கியமானது (547 பணிகள்).

துல்லிய இடைவெளி: கோப்பு வெற்றி vs வரி தோல்வி

இந்த ஆய்வின் மிகவும் வியக்கத்தக்க கண்டுபிடிப்பு, கோப்பு நிலை (file-level) மற்றும் வரி நிலை (line-level) துல்லியத்திற்கு இடையிலான மிகப்பெரிய வேறுபாடாகும். Claude Code, Codex, மற்றும் OpenHands போன்ற பொதுவான ஏஜெண்டுகளுக்கு எதிராகச் சோதனை செய்யப்பட்டபோது, முடிவுகள் வெளிப்படையாக இருந்தன:

கோப்பு நிலை துல்லியம்: ஏஜெண்டுகள் சிறப்பாகச் செயல்படுகின்றன, சரியான மூலக் கோப்புகளை (source files) வெற்றிகரமாகக் கண்டறிந்து அவற்றை உயர் வரிசையில் வைக்கின்றன.
வரி நிலை துல்லியம்: செயல்திறன் சரிந்துவிடுகிறது. பொதுவான கோடிங் ஏஜெண்டுகள் ஒரு பிழையைச் சரிசெய்யத் தேவையான உண்மையான குறியீடு வரிகளில் 14% முதல் 19% வரை மட்டுமே கவர் செய்தன.

சுவாரஸ்யமாக, அடிப்படையான பெரிய மொழி மாதிரியை (LLM) மேம்படுத்துவது மட்டுமே இதைத் தீர்க்காது. OpenAI, Anthropic, Google, Moonshot அல்லது Zhipu ஆகியவற்றின் மாதிரிகளைப் பயன்படுத்தினாலும், இந்த முறை அப்படியே உள்ளது: அதிக கோப்புத் துல்லிய விகிதம், ஆனால் மிகக் குறைந்த வரித் தாக்கம் (line coverage). குறியீட்டை ஒன்றோடொன்று இணைக்கப்பட்ட கட்டுமானத் தொகுதிகளின் வலைப்பின்னலாகக் கருதுவதன் மூலம் CoSIL போன்ற சிறப்பு அமைப்புகள் பொதுவான ஏஜெண்டுகளை விடச் சிறப்பாகச் செயல்பட்டன என்று ஆராய்ச்சி குறிப்பிட்டது; இது வெறும் மாடல் சக்தியை விடக் கட்டமைப்பு மாற்றங்கள் (architectural changes) மிகவும் முக்கியம் என்பதை உணர்த்துகிறது.

வரம்பு விளைவு (Threshold Effect): ஏன் "அதிகமாகப் படிப்பது" முக்கியமானது

கட்டுப்படுத்தப்பட்ட அப்லேஷன் (ablation) சோதனைகள் மூலம், ஆராய்ச்சியாளர்கள் சூழல் (context) தொடர்பாக ஒரு "வரம்பு விளைவை" (threshold effect) கண்டறிந்துள்ளனர். மாடலுக்கு வழங்கப்படும் முக்கியக் குறியீட்டின் அளவை (0% முதல் 100% வரை) மாற்றுவதன் மூலம், சரிசெய்தல்கள் நேர்க்கோட்டு முறையில் (linearly) மேம்படுவதில்லை என்பதை அவர்கள் கண்டறிந்தனர்.

எளிதான பணிகளுக்கு, ஒரு தெளிவான திருப்புமுனை உள்ளது: ஒரு ஏஜென்ட் தேவையான முக்கியப் பகுதிகளில் 50% க்கும் குறைவாகப் பார்த்தால், சரிசெய்யும் வெற்றி விகிதம் பூஜ்ஜியத்திற்கு அருகிலேயே இருக்கும். ஏஜென்ட் தேவையான சூழலில் (context) 50% முதல் 75% வரை அணுகல் பெற்றால் மட்டுமே வெற்றிகரமான சரிசெய்தல்களில் குறிப்பிடத்தக்க முன்னேற்றம் ஏற்படும். முக்கியமாக, தேவையற்ற "சத்தமான" (noise) குறியீடுகளை வழங்குவது, முக்கியமான வரிகளைத் தவிர்ப்பது போல செயல்திறனைப் பாதிக்காது என்று இந்த ஆய்வு கண்டறிந்துள்ளது. டெவலப்பர்களுக்கான பாடம் தெளிவானது: AI முகவர்களின் (AI agents) இந்தக் காலத்தில், அத்தியாவசிய விவரங்களைத் தவிர்ப்பதற்கான அபாயத்தை விட அதிக சூழலை (context) வழங்குவதே சிறந்தது.

முக்கியக் கருத்துக்கள்

இடத்தைக் கண்டறிவதே தடையாகும் காரணி (Localization is the bottleneck): AI முகவர்கள் சரியான கோப்பைக் கண்டறிவதில் திறமையானவை, ஆனால் ஒரு சரிசெய்தலுக்குத் தேவையான குறிப்பிட்ட குறியீட்டு வரிகளைக் துல்லியமாகக் கண்டறிவதில் பெரிதும் சிரமப்படுகின்றன.
மாடல் அளவிடுதல் (Model scaling) ஒரு முழுமையான தீர்வாகாது: அதிக சக்திவாய்ந்த LLM-களுக்கு மேம்படுத்துவது வரி-நிலை துல்லிய இடைவெளியைத் தீர்க்காது; CoSIL போன்ற சிறப்புத் கட்டடக்கலை அணுகுமுறைகள் மிகவும் பயனுள்ளவை.
50% சூழல் விதி (The 50% Context Rule): AI சரிசெய்தல் வெற்றி ஒரு வரம்பு முறையைப் (threshold pattern) பின்பற்றுகிறது, அதாவது வெற்றிகரமான சரிசெய்தல்கள் சாத்தியமாவதற்கு குறைந்தது 50-75% தொடர்புடைய குறியீடு சூழல் (code context) தெரிய வேண்டியது அவசியம்.