AI कोडिंग एजंट्स का अपयशी ठरतात: फाईल्स आणि लाइन्समधील महत्त्वपूर्ण अंतर
जरी AI कोडिंग एजंट्स सॉफ्टवेअरमधील बग्स (bugs) सोडवण्यास अधिकाधिक सक्षम होत असले, तरी एका नवीन अभ्यासातून असे दिसून आले आहे की त्यांना "लोकलयझेशन" (localization) च्या मोठ्या समस्येचा सामना करावा लागतो. ते एका विशाल कोडबेसमध्ये योग्य फाईल शोधू शकतात, परंतु दोष सुधारण्यासाठी (fix) आवश्यक असलेल्या कोडच्या विशिष्ट ओळी (lines) ओळखण्यात ते वारंवार अपयशी ठरतात.
SWE-Explore ची ओळख: रिपेअर रेट्सच्या पलीकडे जाणे
ऐतिहासिकदृष्ट्या, AI कोडिंग एजंट्सची परिणामकारकता एकाच, बायनरी (binary) निकषावर मोजली जाते: एजंटने बग फिक्स केला की नाही? हा दृष्टिकोन अपयशामागचे "कारण" दुर्लक्षित करतो. अयशस्वी रिपेअरचा अर्थ असा असू शकतो की एजंटने चुकीचा पॅच (patch) लिहिला, किंवा याचा अर्थ असाही असू शकतो की एजंटने संबंधित लॉजिककडे पाहिले देखील नाही.
ही त्रुटी दूर करण्यासाठी, शांघाय जिओ टोंग विद्यापीठातील शास्त्रज्ञांसह एका आंतरराष्ट्रीय संशोधन पथकाने SWE-Explore विकसित केले आहे. पारंपारिक बेंचमार्कच्या उलट, SWE-Explore अपस्ट्रीम सर्च फेजला (upstream search phase) वेगळे करते. ते बगचे वर्णन घेऊन समस्येशी संबंधित असलेल्या विशिष्ट कोड विभागांची क्रमाने लावलेली यादी देण्याच्या एजंटच्या क्षमतेचे मूल्यमापन करते. हा डेटासेट व्यापक आहे, जो २०१ ओपन-सोर्स प्रोजेक्ट्स आणि दहा प्रोग्रामिंग भाषांमधील ८४८ टास्कमधून घेतला आहे, ज्यामध्ये Python सर्वात प्रमुख आहे (५४७ टास्क).
अचूकतेतील तफावत: फाईल यश विरुद्ध लाइन अपयश
या अभ्यासातील सर्वात धक्कादायक निष्कर्ष म्हणजे फाईल-लेव्हल आणि लाइन-लेव्हल अचूकतेमधील प्रचंड तफावत. जेव्हा Claude Code, Codex, आणि OpenHands सारख्या सामान्य वापराच्या एजंट्सची चाचणी घेण्यात आली, तेव्हा निकाल स्पष्ट होते:
- फाईल-लेव्हल अचूकता: एजंट्स चांगली कामगिरी करतात, योग्य सोर्स फाईल्स यशस्वीरित्या ओळखतात आणि त्यांना उच्च रँकिंग देतात.
- लाइन-लेव्हल अचूकता: कामगिरी कोसळते. सामान्य कोडिंग एजंट्सनी बग फिक्स करण्यासाठी महत्त्वाच्या असलेल्या प्रत्यक्ष कोडच्या ओळींपैकी केवळ १४% ते १९% ओळी कव्हर केल्या.
मनोरंजक म्हणजे, केवळ मूळ लार्ज लँग्वेज मॉडेल (LLM) अपग्रेड केल्याने ही समस्या सुटत नाही. OpenAI, Anthropic, Google, Moonshot किंवा Zhipu मधील मॉडेल्स वापरले तरीही, ही पद्धत सारखीच राहते: फाईल हिट रेट जास्त असतो पण लाइन कव्हरेज अत्यंत कमी असते. संशोधनात असे नमूद केले आहे की, CoSIL सारख्या विशेष प्रणालींनी कोडला एकमेकांशी जोडलेल्या बिल्डिंग ब्लॉक्सच्या नेटवर्कप्रमाणे हाताळून सामान्य एजंट्सपेक्षा चांगली कामगिरी केली आहे, ज्यातून असे सूचित होते की मॉडेलच्या ताकदीपेक्षा आर्किटेक्चरल बदल अधिक महत्त्वाचे आहेत.
थ्रेशोल्ड इफेक्ट (Threshold Effect): "जास्त वाचणे" का महत्त्वाचे आहे
Through controlled ablation experiments, researchers discovered a "threshold effect" regarding context. By varying the amount of core code provided to the model (from 0% to 100%), they found that repairs do not improve linearly.
For easier tasks, there is a clear tipping point: if an agent sees less than 50% of the necessary core regions, the repair success rate stays near zero. A significant jump in successful repairs only occurs once the agent has access to between 50% and 75% of the required context. Crucially, the study found that providing irrelevant "noise" code does not hurt performance as much as missing the critical lines. The takeaway for developers is clear: in the era of AI agents, it is better to provide more context than to risk filtering out the essential details.
Key Takeaways
- Localization is the bottleneck: AI agents are proficient at finding the right file but struggle significantly to pinpoint the specific lines of code required for a fix.
- Model scaling isn't a silver bullet: Upgrading to more powerful LLMs does not fix the line-level accuracy gap; specialized architectural approaches like CoSIL are more effective.
- The 50% Context Rule: AI repair success follows a threshold pattern, requiring at least 50-75% of the relevant code context to be visible before successful fixes become probable.