ஏன் AI கோடிங் ஏஜெண்டுகள் தோல்வியடைகின்றன: கோப்புகள் மற்றும் வரிகளுக்கு இடையிலான முக்கியமான இடைவெளி

AI கோடிங் ஏஜெண்டுகள் மென்பொருள் பிழைகளைத் தீர்க்கும் திறன் பெற்று வந்தாலும், அவை ஒரு குறிப்பிடத்தக்க "localization" (இருப்பிடத்தைக் கண்டறிதல்) சிக்கலைச் சந்திக்கின்றன என்று ஒரு புதிய ஆய்வு வெளிப்படுத்துகிறது. ஒரு மிகப்பெரிய கோப்புத் தொகுப்பிற்குள் (codebase) சரியான கோப்பிற்குச் செல்ல அவற்றால் முடியும், ஆனால் ஒரு பிழையைச் சரிசெய்யத் தேவையான குறிப்பிட்ட வரிகளைக் கண்டறிவதில் அவை அடிக்கடி தோல்வியடைகின்றன.

SWE-Explore அறிமுகம்: சரிசெய்யும் விகிதங்களைத் தாண்டிச் செல்லுதல்

வரலாற்று ரீதியாக, AI கோடிங் ஏஜெண்டுகளின் செயல்திறன் ஒரு ஒற்றை, இரும அளவீட்டைக் கொண்டு அளவிடப்படுகிறது: ஏஜெண்ட் பிழையைச் சரிசெய்ததா இல்லையா? இந்த அணுகுமுறை தோல்விக்கு பின்னால் உள்ள "ஏன்" என்பதைப் புறக்கணிக்கிறது. ஒரு தோல்வியுற்ற சரிசெய்தல் என்பது ஏஜெண்ட் ஒரு தவறான பேட்ச்சை (patch) எழுதியிருக்கலாம் அல்லது ஏஜெண்ட் தொடர்புடைய தர்க்கத்தையே (logic) பார்க்காமல் இருந்திருக்கலாம் என்பதைக் குறிக்கலாம்.

இந்தத் தெரியாத பகுதியை (blind spot) நிவர்த்தி செய்ய, ஷாங்காய் ஜியாவ் டோங் பல்கலைக்கழக விஞ்ஞானிகள் உட்பட ஒரு சர்வதேச ஆராய்ச்சி குழு SWE-Explore-ஐ உருவாக்கியது. பாரம்பரிய அளவுகோல்களைப் போலன்றி, SWE-Explore ஆரம்பகட்டத் தேடல் கட்டத்தை (upstream search phase) தனிமைப்படுத்துகிறது. ஒரு பிழை விளக்கத்தைப் பெற்று, அந்தப் பிரச்சனைக்கு உண்மையில் தொடர்புடைய குறிப்பிட்ட குறியீடுப் பகுதிகளை வரிசைப்படுத்தப்பட்ட பட்டியலாகத் தரும் ஏஜெண்டின் திறனை இது மதிப்பீடு செய்கிறது. இந்தத் தரவுத்தொகுப்பு (dataset) விரிவானது; இது 203 திறந்த மூலத் திட்டங்கள் (open-source projects) மற்றும் பத்து நிரலாக்க மொழிகளில் உள்ள 848 பணிகளிலிருந்து பெறப்பட்டது, இதில் Python மிகவும் முக்கியமானது (547 பணிகள்).

துல்லிய இடைவெளி: கோப்பு வெற்றி vs வரி தோல்வி

இந்த ஆய்வின் மிகவும் வியக்கத்தக்க கண்டுபிடிப்பு, கோப்பு நிலை (file-level) மற்றும் வரி நிலை (line-level) துல்லியத்திற்கு இடையிலான மிகப்பெரிய வேறுபாடாகும். Claude Code, Codex, மற்றும் OpenHands போன்ற பொதுவான ஏஜெண்டுகளுக்கு எதிராகச் சோதனை செய்யப்பட்டபோது, முடிவுகள் வெளிப்படையாக இருந்தன:

  • கோப்பு நிலை துல்லியம்: ஏஜெண்டுகள் சிறப்பாகச் செயல்படுகின்றன, சரியான மூலக் கோப்புகளை (source files) வெற்றிகரமாகக் கண்டறிந்து அவற்றை உயர் வரிசையில் வைக்கின்றன.
  • வரி நிலை துல்லியம்: செயல்திறன் சரிந்துவிடுகிறது. பொதுவான கோடிங் ஏஜெண்டுகள் ஒரு பிழையைச் சரிசெய்யத் தேவையான உண்மையான குறியீடு வரிகளில் 14% முதல் 19% வரை மட்டுமே கவர் செய்தன.

சுவாரஸ்யமாக, அடிப்படையான பெரிய மொழி மாதிரியை (LLM) மேம்படுத்துவது மட்டுமே இதைத் தீர்க்காது. OpenAI, Anthropic, Google, Moonshot அல்லது Zhipu ஆகியவற்றின் மாதிரிகளைப் பயன்படுத்தினாலும், இந்த முறை அப்படியே உள்ளது: அதிக கோப்புத் துல்லிய விகிதம், ஆனால் மிகக் குறைந்த வரித் தாக்கம் (line coverage). குறியீட்டை ஒன்றோடொன்று இணைக்கப்பட்ட கட்டுமானத் தொகுதிகளின் வலைப்பின்னலாகக் கருதுவதன் மூலம் CoSIL போன்ற சிறப்பு அமைப்புகள் பொதுவான ஏஜெண்டுகளை விடச் சிறப்பாகச் செயல்பட்டன என்று ஆராய்ச்சி குறிப்பிட்டது; இது வெறும் மாடல் சக்தியை விடக் கட்டமைப்பு மாற்றங்கள் (architectural changes) மிகவும் முக்கியம் என்பதை உணர்த்துகிறது.

வரம்பு விளைவு (Threshold Effect): ஏன் "அதிகமாகப் படிப்பது" முக்கியமானது

கட்டுப்படுத்தப்பட்ட அப்லேஷன் (ablation) சோதனைகள் மூலம், ஆராய்ச்சியாளர்கள் சூழல் (context) தொடர்பாக ஒரு "வரம்பு விளைவை" (threshold effect) கண்டறிந்துள்ளனர். மாடலுக்கு வழங்கப்படும் முக்கியக் குறியீட்டின் அளவை (0% முதல் 100% வரை) மாற்றுவதன் மூலம், சரிசெய்தல்கள் நேர்க்கோட்டு முறையில் (linearly) மேம்படுவதில்லை என்பதை அவர்கள் கண்டறிந்தனர்.

எளிதான பணிகளுக்கு, ஒரு தெளிவான திருப்புமுனை உள்ளது: ஒரு ஏஜென்ட் தேவையான முக்கியப் பகுதிகளில் 50% க்கும் குறைவாகப் பார்த்தால், சரிசெய்யும் வெற்றி விகிதம் பூஜ்ஜியத்திற்கு அருகிலேயே இருக்கும். ஏஜென்ட் தேவையான சூழலில் (context) 50% முதல் 75% வரை அணுகல் பெற்றால் மட்டுமே வெற்றிகரமான சரிசெய்தல்களில் குறிப்பிடத்தக்க முன்னேற்றம் ஏற்படும். முக்கியமாக, தேவையற்ற "சத்தமான" (noise) குறியீடுகளை வழங்குவது, முக்கியமான வரிகளைத் தவிர்ப்பது போல செயல்திறனைப் பாதிக்காது என்று இந்த ஆய்வு கண்டறிந்துள்ளது. டெவலப்பர்களுக்கான பாடம் தெளிவானது: AI முகவர்களின் (AI agents) இந்தக் காலத்தில், அத்தியாவசிய விவரங்களைத் தவிர்ப்பதற்கான அபாயத்தை விட அதிக சூழலை (context) வழங்குவதே சிறந்தது.

முக்கியக் கருத்துக்கள்

  • இடத்தைக் கண்டறிவதே தடையாகும் காரணி (Localization is the bottleneck): AI முகவர்கள் சரியான கோப்பைக் கண்டறிவதில் திறமையானவை, ஆனால் ஒரு சரிசெய்தலுக்குத் தேவையான குறிப்பிட்ட குறியீட்டு வரிகளைக் துல்லியமாகக் கண்டறிவதில் பெரிதும் சிரமப்படுகின்றன.
  • மாடல் அளவிடுதல் (Model scaling) ஒரு முழுமையான தீர்வாகாது: அதிக சக்திவாய்ந்த LLM-களுக்கு மேம்படுத்துவது வரி-நிலை துல்லிய இடைவெளியைத் தீர்க்காது; CoSIL போன்ற சிறப்புத் கட்டடக்கலை அணுகுமுறைகள் மிகவும் பயனுள்ளவை.
  • 50% சூழல் விதி (The 50% Context Rule): AI சரிசெய்தல் வெற்றி ஒரு வரம்பு முறையைப் (threshold pattern) பின்பற்றுகிறது, அதாவது வெற்றிகரமான சரிசெய்தல்கள் சாத்தியமாவதற்கு குறைந்தது 50-75% தொடர்புடைய குறியீடு சூழல் (code context) தெரிய வேண்டியது அவசியம்.