Why AI Coding Agents Fail: The Critical Gap Between Files and Lines

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 వారాల క్రితం3min read

In this article

AI కోడింగ్ ఏజెంట్లు ఎందుకు విఫలమవుతాయి: ఫైల్‌లు మరియు లైన్‌ల మధ్య ఉన్న కీలకమైన అంతరం

AI కోడింగ్ ఏజెంట్లు సాఫ్ట్‌వేర్ బగ్‌లను పరిష్కరించడంలో రోజురోజుకూ సమర్థవంతంగా మారుతున్నప్పటికీ, అవి ఒక ముఖ్యమైన "లోకలైజేషన్" (localization) సమస్యతో బాధపడుతున్నాయని ఒక కొత్త అధ్యయనం వెల్లడిస్తోంది. అవి భారీ కోడ్‌బేస్‌లో సరైన ఫైల్‌ను గుర్తించగలవు, కానీ ఒక పరిష్కారాన్ని అమలు చేయడానికి అవసరమైన నిర్దిష్ట కోడ్ లైన్‌లను గుర్తించడంలో తరచుగా విఫలమవుతాయి.

SWE-Explore పరిచయం: రిపేర్ రేట్ల కంటే మించి

చారిత్రాత్మకంగా, AI కోడింగ్ ఏజెంట్ల ప్రభావాన్ని ఒకే ఒక బైనరీ కొలమానంతో కొలుస్తారు: ఏజెంట్ బగ్‌ను పరిష్కరించింది లేదా? ఈ విధానం వైఫల్యం వెనుక ఉన్న "ఎందుకు" అనే అంశాన్ని విస్మరిస్తుంది. రిపేర్ విఫలమైందంటే, ఏజెంట్ తప్పుడు ప్యాచ్‌ను రాసి ఉండవచ్చు లేదా ఏజెంట్ సంబంధిత లాజిక్‌ను అసలు చూడలేకపోయి ఉండవచ్చు.

ఈ లోపాన్ని సరిదిద్దడానికి, Shanghai Jiao Tong University శాస్త్రవేత్తలతో సహా ఒక అంతర్జాతీయ పరిశోధన బృందం SWE-Exploreను అభివృద్ధి చేసింది. సాంప్రదాయ బెంచ్‌మార్క్‌లలా కాకుండా, SWE-Explore అప్‌స్ట్రీమ్ సెర్చ్ దశను (upstream search phase) వేరు చేస్తుంది. ఇది ఒక బగ్ వివరణను తీసుకుని, సమస్యకు నిజంగా సంబంధం ఉన్న నిర్దిష్ట కోడ్ విభాగాల ర్యాంక్ చేయబడిన జాబితాను అందించే ఏజెంట్ సామర్థ్యాన్ని అంచనా వేస్తుంది. ఈ డేటాసెట్ చాలా విస్తృతమైనది; ఇది 203 ఓపెన్-సోర్స్ ప్రాజెక్ట్‌లు మరియు పది ప్రోగ్రామింగ్ భాషల నుండి 848 టాస్క్‌ల నుండి సేకరించబడింది, ఇందులో Python అత్యంత ప్రముఖమైనది (547 టాస్క్‌లు).

ఖచ్చితత్వ అంతరం: ఫైల్ విజయం vs లైన్ వైఫల్యం

ఫైల్-లెవల్ మరియు లైన్-లెవల్ ఖచ్చితత్వాల మధ్య ఉన్న భారీ వ్యత్యాసమే ఈ అధ్యయనం యొక్క అత్యంత ఆశ్చర్యకరమైన అంశం. Claude Code, Codex, మరియు OpenHands వంటి జనరల్-పర్పస్ ఏజెంట్లను పరీక్షించినప్పుడు, ఫలితాలు స్పష్టంగా ఉన్నాయి:

File-level accuracy: ఏజెంట్లు బాగా పనిచేస్తున్నాయి, సరైన సోర్స్ ఫైల్‌లను విజయవంతంగా గుర్తించి, వాటికి అధిక ర్యాంకులను ఇస్తున్నాయి.
Line-level accuracy: పనితీరు పూర్తిగా పడిపోయింది. జనరల్ కోడింగ్ ఏజెంట్లు పరిష్కారానికి అవసరమైన అసలు కోడ్ లైన్‌లలో కేవలం 14% నుండి 19% వరకు మాత్రమే కవర్ చేయగలిగాయి.

ఆసక్తికరమైన విషయం ఏమిటంటే, కేవలం అండర్‌లైయింగ్ Large Language Model (LLM)ను అప్‌గ్రేడ్ చేయడం వల్ల ఈ సమస్య పరిష్కారం కాదు. OpenAI, Anthropic, Google, Moonshot లేదా Zhipu నుండి వచ్చిన మోడల్‌లను ఉపయోగించినప్పటికీ, ఫలితం ఒకేలా ఉంది: ఫైల్ హిట్ రేట్లు ఎక్కువగా ఉన్నప్పటికీ, లైన్ కవరేజ్ మాత్రం చాలా తక్కువగా ఉంది. కోడ్‌ను పరస్పర అనుసంధానిత బిల్డింగ్ బ్లాక్‌ల నెట్‌వర్క్‌గా పరిగణించడం ద్వారా CoSIL వంటి ప్రత్యేక వ్యవస్థలు జనరల్ ఏజెంట్ల కంటే మెరుగైన పనితీరును కనబరిచాయని పరిశోధన పేర్కొంది. ఇది మోడల్ యొక్క శక్తి కంటే ఆర్కిటెక్చరల్ మార్పులే ఎక్కువ ముఖ్యమని సూచిస్తోంది.

థ్రెషోల్డ్ ఎఫెక్ట్: "మరింత చదవడం" ఎందుకు ముఖ్యం

నియంత్రిత అబ్లేషన్ ప్రయోగాల ద్వారా, పరిశోధకులు సందర్భానికి (context) సంబంధించి ఒక "పరిమితి ప్రభావాన్ని" (threshold effect) కనుగొన్నారు. మోడల్‌కు అందించే ప్రధాన కోడ్ పరిమాణాన్ని (0% నుండి 100% వరకు) మారుస్తూ, రిపేర్లు రేఖీయంగా (linearly) మెరుగుపడవు అని వారు గుర్తించారు.

సులభమైన పనుల కోసం, ఒక స్పష్టమైన నిర్ణయాత్మక బిందువు (tipping point) ఉంది: ఒక ఏజెంట్ అవసరమైన ప్రధాన ప్రాంతాలలో 50% కంటే తక్కువ చూస్తే, రిపేర్ విజయ రేటు సున్నాకి దగ్గరగా ఉంటుంది. ఏజెంట్‌కు అవసరమైన సందర్భంలో (context) 50% నుండి 75% వరకు లభించినప్పుడు మాత్రమే విజయవంతమైన రిపేర్లలో గణనీయమైన పెరుగుదల కనిపిస్తుంది. ముఖ్యంగా, సంబంధం లేని "నాయిస్" (noise) కోడ్‌ను అందించడం వల్ల పనితీరు అంతగా దెబ్బతినదని, కానీ కీలకమైన లైన్లను వదిలివేయడం వల్ల పనితీరు గణనీయంగా తగ్గుతుందని ఈ అధ్యయనం తేల్చింది. డెవలపర్‌లకు దీని నుండి వచ్చే సందేశం స్పష్టంగా ఉంది: AI ఏజెంట్ల యుగంలో, ముఖ్యమైన వివరాలను వదిలివేసే ప్రమాదం కంటే ఎక్కువ సందర్భాన్ని (context) అందించడమే మంచిది.

ముఖ్యమైన అంశాలు

లోకలైజేషన్ అనేది అడ్డంకి: AI ఏజెంట్లు సరైన ఫైల్‌ను కనుగొనడంలో నైపుణ్యం కలిగి ఉంటాయి, కానీ రిపేర్ కోసం అవసరమైన నిర్దిష్ట కోడ్ లైన్లను ఖచ్చితంగా గుర్తించడంలో గణనీయంగా ఇబ్బంది పడతాయి.
మోడల్ స్కేలింగ్ అనేది అన్ని సమస్యలకు పరిష్కారం కాదు: మరింత శక్తివంతమైన LLMలకు అప్‌గ్రేడ్ చేయడం వల్ల లైన్-లెవల్ ఖచ్చితత్వ లోపం సరిపోదు; CoSIL వంటి ప్రత్యేకమైన ఆర్కిటెక్చరల్ విధానాలు మరింత ప్రభావవంతంగా పనిచేస్తాయి.
50% కాంటెక్స్ట్ నియమం: AI రిపేర్ విజయం ఒక థ్రెషోల్డ్ ప్యాటర్న్‌ను అనుసరిస్తుంది, అంటే విజయవంతమైన రిపేర్లు సాధ్యపడాలంటే కనీసం 50-75% సంబంధిత కోడ్ కాంటెక్స్ట్ అందుబాటులో ఉండాలి.