AI కోడింగ్ ఏజెంట్లు ఎందుకు విఫలమవుతాయి: ఫైల్‌లు మరియు లైన్‌ల మధ్య ఉన్న కీలకమైన అంతరం

AI కోడింగ్ ఏజెంట్లు సాఫ్ట్‌వేర్ బగ్‌లను పరిష్కరించడంలో రోజురోజుకూ సమర్థవంతంగా మారుతున్నప్పటికీ, అవి ఒక ముఖ్యమైన "లోకలైజేషన్" (localization) సమస్యతో బాధపడుతున్నాయని ఒక కొత్త అధ్యయనం వెల్లడిస్తోంది. అవి భారీ కోడ్‌బేస్‌లో సరైన ఫైల్‌ను గుర్తించగలవు, కానీ ఒక పరిష్కారాన్ని అమలు చేయడానికి అవసరమైన నిర్దిష్ట కోడ్ లైన్‌లను గుర్తించడంలో తరచుగా విఫలమవుతాయి.

SWE-Explore పరిచయం: రిపేర్ రేట్ల కంటే మించి

చారిత్రాత్మకంగా, AI కోడింగ్ ఏజెంట్ల ప్రభావాన్ని ఒకే ఒక బైనరీ కొలమానంతో కొలుస్తారు: ఏజెంట్ బగ్‌ను పరిష్కరించింది లేదా? ఈ విధానం వైఫల్యం వెనుక ఉన్న "ఎందుకు" అనే అంశాన్ని విస్మరిస్తుంది. రిపేర్ విఫలమైందంటే, ఏజెంట్ తప్పుడు ప్యాచ్‌ను రాసి ఉండవచ్చు లేదా ఏజెంట్ సంబంధిత లాజిక్‌ను అసలు చూడలేకపోయి ఉండవచ్చు.

ఈ లోపాన్ని సరిదిద్దడానికి, Shanghai Jiao Tong University శాస్త్రవేత్తలతో సహా ఒక అంతర్జాతీయ పరిశోధన బృందం SWE-Exploreను అభివృద్ధి చేసింది. సాంప్రదాయ బెంచ్‌మార్క్‌లలా కాకుండా, SWE-Explore అప్‌స్ట్రీమ్ సెర్చ్ దశను (upstream search phase) వేరు చేస్తుంది. ఇది ఒక బగ్ వివరణను తీసుకుని, సమస్యకు నిజంగా సంబంధం ఉన్న నిర్దిష్ట కోడ్ విభాగాల ర్యాంక్ చేయబడిన జాబితాను అందించే ఏజెంట్ సామర్థ్యాన్ని అంచనా వేస్తుంది. ఈ డేటాసెట్ చాలా విస్తృతమైనది; ఇది 203 ఓపెన్-సోర్స్ ప్రాజెక్ట్‌లు మరియు పది ప్రోగ్రామింగ్ భాషల నుండి 848 టాస్క్‌ల నుండి సేకరించబడింది, ఇందులో Python అత్యంత ప్రముఖమైనది (547 టాస్క్‌లు).

ఖచ్చితత్వ అంతరం: ఫైల్ విజయం vs లైన్ వైఫల్యం

ఫైల్-లెవల్ మరియు లైన్-లెవల్ ఖచ్చితత్వాల మధ్య ఉన్న భారీ వ్యత్యాసమే ఈ అధ్యయనం యొక్క అత్యంత ఆశ్చర్యకరమైన అంశం. Claude Code, Codex, మరియు OpenHands వంటి జనరల్-పర్పస్ ఏజెంట్లను పరీక్షించినప్పుడు, ఫలితాలు స్పష్టంగా ఉన్నాయి:

  • File-level accuracy: ఏజెంట్లు బాగా పనిచేస్తున్నాయి, సరైన సోర్స్ ఫైల్‌లను విజయవంతంగా గుర్తించి, వాటికి అధిక ర్యాంకులను ఇస్తున్నాయి.
  • Line-level accuracy: పనితీరు పూర్తిగా పడిపోయింది. జనరల్ కోడింగ్ ఏజెంట్లు పరిష్కారానికి అవసరమైన అసలు కోడ్ లైన్‌లలో కేవలం 14% నుండి 19% వరకు మాత్రమే కవర్ చేయగలిగాయి.

ఆసక్తికరమైన విషయం ఏమిటంటే, కేవలం అండర్‌లైయింగ్ Large Language Model (LLM)ను అప్‌గ్రేడ్ చేయడం వల్ల ఈ సమస్య పరిష్కారం కాదు. OpenAI, Anthropic, Google, Moonshot లేదా Zhipu నుండి వచ్చిన మోడల్‌లను ఉపయోగించినప్పటికీ, ఫలితం ఒకేలా ఉంది: ఫైల్ హిట్ రేట్లు ఎక్కువగా ఉన్నప్పటికీ, లైన్ కవరేజ్ మాత్రం చాలా తక్కువగా ఉంది. కోడ్‌ను పరస్పర అనుసంధానిత బిల్డింగ్ బ్లాక్‌ల నెట్‌వర్క్‌గా పరిగణించడం ద్వారా CoSIL వంటి ప్రత్యేక వ్యవస్థలు జనరల్ ఏజెంట్ల కంటే మెరుగైన పనితీరును కనబరిచాయని పరిశోధన పేర్కొంది. ఇది మోడల్ యొక్క శక్తి కంటే ఆర్కిటెక్చరల్ మార్పులే ఎక్కువ ముఖ్యమని సూచిస్తోంది.

థ్రెషోల్డ్ ఎఫెక్ట్: "మరింత చదవడం" ఎందుకు ముఖ్యం

నియంత్రిత అబ్లేషన్ ప్రయోగాల ద్వారా, పరిశోధకులు సందర్భానికి (context) సంబంధించి ఒక "పరిమితి ప్రభావాన్ని" (threshold effect) కనుగొన్నారు. మోడల్‌కు అందించే ప్రధాన కోడ్ పరిమాణాన్ని (0% నుండి 100% వరకు) మారుస్తూ, రిపేర్లు రేఖీయంగా (linearly) మెరుగుపడవు అని వారు గుర్తించారు.

సులభమైన పనుల కోసం, ఒక స్పష్టమైన నిర్ణయాత్మక బిందువు (tipping point) ఉంది: ఒక ఏజెంట్ అవసరమైన ప్రధాన ప్రాంతాలలో 50% కంటే తక్కువ చూస్తే, రిపేర్ విజయ రేటు సున్నాకి దగ్గరగా ఉంటుంది. ఏజెంట్‌కు అవసరమైన సందర్భంలో (context) 50% నుండి 75% వరకు లభించినప్పుడు మాత్రమే విజయవంతమైన రిపేర్లలో గణనీయమైన పెరుగుదల కనిపిస్తుంది. ముఖ్యంగా, సంబంధం లేని "నాయిస్" (noise) కోడ్‌ను అందించడం వల్ల పనితీరు అంతగా దెబ్బతినదని, కానీ కీలకమైన లైన్లను వదిలివేయడం వల్ల పనితీరు గణనీయంగా తగ్గుతుందని ఈ అధ్యయనం తేల్చింది. డెవలపర్‌లకు దీని నుండి వచ్చే సందేశం స్పష్టంగా ఉంది: AI ఏజెంట్ల యుగంలో, ముఖ్యమైన వివరాలను వదిలివేసే ప్రమాదం కంటే ఎక్కువ సందర్భాన్ని (context) అందించడమే మంచిది.

ముఖ్యమైన అంశాలు

  • లోకలైజేషన్ అనేది అడ్డంకి: AI ఏజెంట్లు సరైన ఫైల్‌ను కనుగొనడంలో నైపుణ్యం కలిగి ఉంటాయి, కానీ రిపేర్ కోసం అవసరమైన నిర్దిష్ట కోడ్ లైన్లను ఖచ్చితంగా గుర్తించడంలో గణనీయంగా ఇబ్బంది పడతాయి.
  • మోడల్ స్కేలింగ్ అనేది అన్ని సమస్యలకు పరిష్కారం కాదు: మరింత శక్తివంతమైన LLMలకు అప్‌గ్రేడ్ చేయడం వల్ల లైన్-లెవల్ ఖచ్చితత్వ లోపం సరిపోదు; CoSIL వంటి ప్రత్యేకమైన ఆర్కిటెక్చరల్ విధానాలు మరింత ప్రభావవంతంగా పనిచేస్తాయి.
  • 50% కాంటెక్స్ట్ నియమం: AI రిపేర్ విజయం ఒక థ్రెషోల్డ్ ప్యాటర్న్‌ను అనుసరిస్తుంది, అంటే విజయవంతమైన రిపేర్లు సాధ్యపడాలంటే కనీసం 50-75% సంబంధిత కోడ్ కాంటెక్స్ట్ అందుబాటులో ఉండాలి.