Why AI Coding Agents Fail: The Critical Gap Between Files and Lines

Translated for your language. Read the original.

AI-assisted draft.

In this article

AI ਕੋਡਿੰਗ ਏਜੰਟ ਕਿਉਂ ਅਸਫਲ ਹੁੰਦੇ ਹਨ: ਫਾਈਲਾਂ ਅਤੇ ਲਾਈਨਾਂ ਵਿਚਕਾਰ ਮਹੱਤਵਪੂਰਨ ਪਾੜਾ

ਹਾਲਾਂਕਿ AI ਕੋਡਿੰਗ ਏਜੰਟ ਸਾਫਟਵੇਅਰ ਬੱਗਸ (bugs) ਨੂੰ ਹੱਲ ਕਰਨ ਵਿੱਚ ਵਧੇਰੇ ਸਮਰੱਥ ਹੋ ਰਹੇ ਹਨ, ਇੱਕ ਨਵਾਂ ਅਧਿਐਨ ਦੱਸਦਾ ਹੈ ਕਿ ਉਹ ਇੱਕ ਮਹੱਤਵਪੂਰਨ "ਲੋਕਲਾਈਜ਼ੇਸ਼ਨ" (localization) ਸਮੱਸਿਆ ਤੋਂ ਪ੍ਰਭਾਵਿਤ ਹਨ। ਉਹ ਇੱਕ ਵਿਸ਼ਾਲ ਕੋਡਬੇਸ (codebase) ਦੇ ਅੰਦਰ ਸਹੀ ਫਾਈਲ ਤੱਕ ਪਹੁੰਚ ਸਕਦੇ ਹਨ, ਪਰ ਉਹ ਅਕਸਰ ਫਿਕਸ ਲਾਗੂ ਕਰਨ ਲਈ ਲੋੜੀਂਦੀਆਂ ਕੋਡ ਦੀਆਂ ਖਾਸ ਲਾਈਨਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ।

SWE-Explore ਦੀ ਜਾਣ-ਪਛਾਣ: ਰਿਪੇਅਰ ਰੇਟਸ ਤੋਂ ਅੱਗੇ ਵਧਣਾ

ਇਤਿਹਾਸਕ ਤੌਰ 'ਤੇ, AI ਕੋਡਿੰਗ ਏਜੰਟਾਂ ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਨੂੰ ਇੱਕ ਸਿੰਗਲ, ਬਾਈਨਰੀ ਮੈਟ੍ਰਿਕ ਦੁਆਰਾ ਮਾਪਿਆ ਗਿਆ ਹੈ: ਕੀ ਏਜੰਟ ਨੇ ਬੱਗ ਨੂੰ ਠੀਕ ਕੀਤਾ ਜਾਂ ਨਹੀਂ? ਇਹ ਪਹੁੰਚ ਅਸਫਲਤਾ ਦੇ ਪਿੱਛੇ ਦੇ "ਕਾਰਨ" ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਦੀ ਹੈ। ਇੱਕ ਅਸਫਲ ਰਿਪੇਅਰ ਦਾ ਮਤਲਬ ਇਹ ਹੋ ਸਕਦਾ ਹੈ ਕਿ ਏਜੰਟ ਨੇ ਇੱਕ ਗਲਤ ਪੈਚ (patch) ਲਿਖਿਆ ਹੈ, ਜਾਂ ਇਸਦਾ ਮਤਲਬ ਇਹ ਹੋ ਸਕਦਾ ਹੈ ਕਿ ਏਜੰਟ ਨੇ ਕਦੇ ਸਬੰਧਤ ਲੌਜਿਕ (logic) ਵੱਲ ਦੇਖਿਆ ਹੀ ਨਹੀਂ।

ਇਸ ਅੰਨ੍ਹੇ ਮੋੜ (blind spot) ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ, Shanghai Jiao Tong University ਦੇ ਵਿਗਿਆਨੀਆਂ ਸਮੇਤ ਇੱਕ ਅੰਤਰਰਾਸ਼ਟਰੀ ਖੋਜ ਟੀਮ ਨੇ SWE-Explore ਵਿਕਸਿਤ ਕੀਤਾ ਹੈ। ਰਵਾਇਤੀ ਬੈਂਚਮਾਰਕਸ ਦੇ ਉਲਟ, SWE-Explore ਅੱਪਸਟ੍ਰੀਮ ਸਰਚ ਫੇਜ਼ (upstream search phase) ਨੂੰ ਵੱਖਰਾ ਕਰਦਾ ਹੈ। ਇਹ ਇੱਕ ਬੱਗ ਦੇ ਵੇਰਵੇ ਨੂੰ ਲੈ ਕੇ ਸਮੱਸਿਆ ਨਾਲ ਸਬੰਧਤ ਖਾਸ ਕੋਡ ਸੈਕਸ਼ਨਾਂ ਦੀ ਰੈਂਕਡ ਸੂਚੀ ਵਾਪਸ ਕਰਨ ਦੀ ਏਜੰਟ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ। ਇਹ ਡੇਟਾ ਸੈੱਟ ਵਿਸ਼ਾਲ ਹੈ, ਜੋ 203 ਓਪਨ-ਸੋਰਸ ਪ੍ਰੋਜੈਕਟਾਂ ਅਤੇ ਦਸ ਪ੍ਰੋਗਰਾਮਿੰਗ ਭਾਸ਼ਾਵਾਂ ਦੇ 848 ਕਾਰਜਾਂ (tasks) ਤੋਂ ਲਿਆ ਗਿਆ ਹੈ, ਜਿਸ ਵਿੱਚ Python ਸਭ ਤੋਂ ਪ੍ਰਮੁੱਖ ਹੈ (547 ਕਾਰਜ)।

ਸ਼ੁੱਧਤਾ ਦਾ ਪਾੜਾ: ਫਾਈਲ ਦੀ ਸਫਲਤਾ ਬਨਾਮ ਲਾਈਨ ਦੀ ਅਸਫਲਤਾ

ਅਧਿਐਨ ਦਾ ਸਭ ਤੋਂ ਹੈਰਾਨੀਜਨਕ ਨਤੀਜਾ ਫਾਈਲ-ਪੱਧਰ ਅਤੇ ਲਾਈਨ-ਪੱਧਰ ਦੀ ਸ਼ੁੱਧਤਾ ਵਿਚਕਾਰ ਵੱਡਾ ਅੰਤਰ ਹੈ। ਜਦੋਂ Claude Code, Codex, ਅਤੇ OpenHands ਵਰਗੇ ਜਨਰਲ-ਪਰਪਜ਼ ਏਜੰਟਾਂ ਦੇ ਵਿਰੁੱਧ ਟੈਸਟ ਕੀਤਾ ਗਿਆ, ਤਾਂ ਨਤੀਜੇ ਬਹੁਤ ਕੁਝ ਦੱਸ ਰਹੇ ਸਨ:

ਫਾਈਲ-ਪੱਧਰ ਦੀ ਸ਼ੁੱਧਤਾ: ਏਜੰਟ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ, ਸਹੀ ਸੋਰਸ ਫਾਈਲਾਂ ਦੀ ਸਫਲਤਾਪੂਰਵਕ ਪਛਾਣ ਕਰਦੇ ਹਨ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਉੱਚਾ ਰੈਂਕ ਦਿੰਦੇ ਹਨ।
ਲਾਈਨ-ਪੱਧਰ ਦੀ ਸ਼ੁੱਧਤਾ: ਪ੍ਰਦਰਸ਼ਨ ਬੁਰੀ ਤਰ੍ਹਾਂ ਡਿੱਗ ਜਾਂਦਾ ਹੈ। ਜਨਰਲ ਕੋਡਿੰਗ ਏਜੰਟਾਂ ਨੇ ਸਿਰਫ 14% ਤੋਂ 19% ਅਸਲ ਕੋਡ ਲਾਈਨਾਂ ਨੂੰ ਕਵਰ ਕੀਤਾ ਜੋ ਫਿਕਸ ਲਈ ਮਹੱਤਵਪੂਰਨ ਸਨ।

ਦਿਲਚਸਪ ਗੱਲ ਇਹ ਹੈ ਕਿ ਸਿਰਫ ਅੰਡਰਲਾਈਂਗ Large Language Model (LLM) ਨੂੰ ਅੱਪਗ੍ਰੇਡ ਕਰਨ ਨਾਲ ਇਹ ਸਮੱਸਿਆ ਹੱਲ ਨਹੀਂ ਹੁੰਦੀ। ਚਾਹੇ OpenAI, Anthropic, Google, Moonshot, ਜਾਂ Zhipu ਦੇ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾਵੇ, ਪੈਟਰਨ ਇੱਕੋ ਜਿਹਾ ਰਹਿੰਦਾ ਹੈ: ਫਾਈਲ ਹਿੱਟ ਰੇਟ ਉੱਚਾ ਹੈ ਪਰ ਲਾਈਨ ਕਵਰੇਜ ਬਹੁਤ ਹੀ ਮਾੜੀ ਹੈ। ਖੋਜ ਵਿੱਚ ਨੋਟ ਕੀਤਾ ਗਿਆ ਕਿ CoSIL ਵਰਗੇ ਵਿਸ਼ੇਸ਼ ਸਿਸਟਮਾਂ ਨੇ ਕੋਡ ਨੂੰ ਆਪਸ ਵਿੱਚ ਜੁੜੇ ਹੋਏ ਬਿਲਡਿੰਗ ਬਲਾਕਸ ਦੇ ਨੈੱਟਵਰਕ ਵਜੋਂ ਵਰਤ ਕੇ ਜਨਰਲ ਏਜੰਟਾਂ ਨਾਲੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਜੋ ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਆਰਕੀਟੈਕਚਰਲ ਤਬਦੀਲੀਆਂ ਮਾਡਲ ਦੀ ਸ਼ਕਤੀ ਨਾਲੋਂ ਵਧੇਰੇ ਮਹੱਤਵਪੂਰਨ ਹਨ।

ਥ੍ਰੈਸ਼ਹੋਲਡ ਪ੍ਰਭਾਵ (Threshold Effect): "ਵੱਧ ਪੜ੍ਹਨਾ" ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ

Through controlled ablation experiments, researchers discovered a "threshold effect" regarding context. By varying the amount of core code provided to the model (from 0% to 100%), they found that repairs do not improve linearly.

For easier tasks, there is a clear tipping point: if an agent sees less than 50% of the necessary core regions, the repair success rate stays near zero. A significant jump in successful repairs only occurs once the agent has access to between 50% and 75% of the required context. Crucially, the study found that providing irrelevant "noise" code does not hurt performance as much as missing the critical lines. The takeaway for developers is clear: in the era of AI agents, it is better to provide more context than to risk filtering out the essential details.

Key Takeaways

Localization is the bottleneck: AI agents are proficient at finding the right file but struggle significantly to pinpoint the specific lines of code required for a fix.
Model scaling isn't a silver bullet: Upgrading to more powerful LLMs does not fix the line-level accuracy gap; specialized architectural approaches like CoSIL are more effective.
The 50% Context Rule: AI repair success follows a threshold pattern, requiring at least 50-75% of the relevant code context to be visible before successful fixes become probable.