AI कोडिंग एजेंट्स क्यों विफल होते हैं: फाइलों और लाइनों के बीच का महत्वपूर्ण अंतर

हालांकि AI कोडिंग एजेंट्स सॉफ्टवेयर बग्स को हल करने में तेजी से सक्षम हो रहे हैं, लेकिन एक नए अध्ययन से पता चलता है कि वे एक महत्वपूर्ण "लोकलइज़ेशन" (localization) समस्या से जूझ रहे हैं। वे एक विशाल कोडबेस के भीतर सही फ़ाइल तक तो पहुँच सकते हैं, लेकिन वे अक्सर सुधार लागू करने के लिए आवश्यक कोड की विशिष्ट लाइनों की पहचान करने में विफल रहते हैं।

SWE-Explore का परिचय: रिपेयर रेट्स से आगे बढ़ना

ऐतिहासिक रूप से, AI कोडिंग एजेंट्स की प्रभावशीलता को एक एकल, बाइनरी मीट्रिक से मापा जाता रहा है: क्या एजेंट ने बग को ठीक किया या नहीं? यह दृष्टिकोण विफलता के पीछे के "क्यों" को नज़रअंदाज़ करता है। एक असफल रिपेयर का मतलब यह हो सकता है कि एजेंट ने एक खराब पैच लिखा, या इसका मतलब यह हो सकता है कि एजेंट ने प्रासंगिक लॉजिक को देखा ही नहीं।

इस ब्लाइंड स्पॉट को दूर करने के लिए, शंघाई जियाओ टोंग यूनिवर्सिटी के वैज्ञानिकों सहित एक अंतरराष्ट्रीय शोध टीम ने SWE-Explore विकसित किया है। पारंपरिक बेंचमार्क के विपरीत, SWE-Explore अपस्ट्रीम सर्च चरण (upstream search phase) को अलग करता है। यह किसी बग विवरण को लेकर समस्या से वास्तव में संबंधित विशिष्ट कोड सेक्शन की एक रैंक की गई सूची प्रदान करने की एजेंट की क्षमता का मूल्यांकन करता है। इसका डेटासेट व्यापक है, जो 203 ओपन-सोर्स प्रोजेक्ट्स और दस प्रोग्रामिंग भाषाओं के 848 कार्यों से लिया गया है, जिसमें Python सबसे प्रमुख है (547 कार्य)।

प्रिसिजन गैप: फ़ाइल सफलता बनाम लाइन विफलता

अध्ययन का सबसे चौंकाने वाला निष्कर्ष फ़ाइल-स्तर और लाइन-स्तर की सटीकता के बीच भारी असमानता है। जब Claude Code, Codex, और OpenHands जैसे सामान्य उद्देश्य वाले एजेंट्स के खिलाफ परीक्षण किया गया, तो परिणाम स्पष्ट थे:

  • फ़ाइल-स्तर की सटीकता: एजेंट्स अच्छा प्रदर्शन करते हैं, सही सोर्स फ़ाइलों की सफलतापूर्वक पहचान करते हैं और उन्हें उच्च रैंक देते हैं।
  • लाइन-स्तर की सटीकता: प्रदर्शन ध्वस्त हो जाता है। सामान्य कोडिंग एजेंट्स ने केवल 14% से 19% उन वास्तविक कोड लाइनों को कवर किया जो सुधार के लिए महत्वपूर्ण थीं।

दिलचस्प बात यह है कि केवल अंतर्निहित लार्ज लैंग्वेज मॉडल (LLM) को अपग्रेड करने से यह समस्या हल नहीं होती है। चाहे OpenAI, Anthropic, Google, Moonshot, या Zhipu के मॉडल का उपयोग किया जा रहा हो, पैटर्न बिल्कुल समान रहता है: फ़ाइल हिट रेट अधिक है लेकिन लाइन कवरेज बेहद खराब है। शोध में उल्लेख किया गया कि CoSIL जैसे विशेष सिस्टम ने कोड को परस्पर जुड़े बिल्डिंग ब्लॉक्स के नेटवर्क के रूप में मानकर सामान्य एजेंट्स से बेहतर प्रदर्शन किया, जो यह सुझाव देता है कि आर्किटेक्चरल बदलाव मॉडल की मूल शक्ति की तुलना में अधिक महत्वपूर्ण हैं।

थ्रेशोल्ड इफेक्ट: "अधिक पढ़ना" क्यों मायने रखता है

नियंत्रित एब्लेशन प्रयोगों के माध्यम से, शोधकर्ताओं ने संदर्भ (context) के संबंध में एक "थ्रेशोल्ड प्रभाव" की खोज की। मॉडल को दिए जाने वाले मुख्य कोड की मात्रा (0% से 100% तक) में बदलाव करके, उन्होंने पाया कि सुधार रैखिक रूप से (linearly) नहीं बढ़ते हैं।

आसान कार्यों के लिए, एक स्पष्ट टिपिंग पॉइंट है: यदि कोई एजेंट आवश्यक मुख्य क्षेत्रों के 50% से कम को देखता है, तो सुधार की सफलता दर शून्य के करीब रहती है। सफल सुधारों में महत्वपूर्ण उछाल तभी आता है जब एजेंट के पास आवश्यक संदर्भ का 50% से 75% तक पहुंच होती है। महत्वपूर्ण रूप से, अध्ययन में पाया गया कि अप्रासंगिक "शोर" (noise) कोड प्रदान करने से प्रदर्शन उतना खराब नहीं होता है जितना कि महत्वपूर्ण लाइनों के छूट जाने से होता है। डेवलपर्स के लिए निष्कर्ष स्पष्ट है: AI एजेंटों के युग में, आवश्यक विवरणों को फ़िल्टर करने का जोखिम उठाने के बजाय अधिक संदर्भ प्रदान करना बेहतर है।

मुख्य निष्कर्ष

  • लोकलाइज़ेशन (Localization) एक बाधा है: AI एजेंट सही फ़ाइल खोजने में कुशल होते हैं, लेकिन सुधार के लिए आवश्यक कोड की विशिष्ट लाइनों को सटीक रूप से पहचानने में उन्हें काफी संघर्ष करना पड़ता है।
  • मॉडल स्केलिंग कोई रामबाण समाधान नहीं है: अधिक शक्तिशाली LLMs पर अपग्रेड करने से लाइन-स्तर के सटीकता अंतराल (accuracy gap) को ठीक नहीं किया जा सकता; CoSIL जैसे विशेष आर्किटेक्चरल दृष्टिकोण अधिक प्रभावी हैं।
  • 50% संदर्भ नियम: AI सुधार की सफलता एक थ्रेशोल्ड पैटर्न का पालन करती है, जिसमें सफल सुधारों के संभावित होने से पहले कम से कम 50-75% प्रासंगिक कोड संदर्भ का दृश्यमान होना आवश्यक है।