AI ಕೋಡಿಂಗ್ ಏಜೆಂಟ್ಗಳು ಏಕೆ ವಿಫಲವಾಗುತ್ತವೆ: ಫೈಲ್ಗಳು ಮತ್ತು ಸಾಲುಗಳ ನಡುವಿನ ನಿರ್ಣಾಯಕ ಅಂತರ
AI ಕೋಡಿಂಗ್ ಏಜೆಂಟ್ಗಳು ಸಾಫ್ಟ್ವೇರ್ ಬಗ್ಗಳನ್ನು (bugs) ಪರಿಹರಿಸುವಲ್ಲಿ ಹೆಚ್ಚು ಸಾಮರ್ಥ್ಯ ಹೊಂದಿದ್ದರೂ ಸಹ, ಒಂದು ಹೊಸ ಅಧ್ಯಯನವು ಅವುಗಳು ಗಂಭೀರವಾದ "ಲೋಕಲೈಸೇಶನ್" (localization) ಸಮಸ್ಯೆಯನ್ನು ಎದುರಿಸುತ್ತಿವೆ ಎಂದು ಬಹಿರಂಗಪಡಿಸಿದೆ. ಅವು ಬೃಹತ್ ಕೋಡ್ಬೇಸ್ನಲ್ಲಿದ್ದರೂ ಸರಿಯಾದ ಫೈಲ್ಗೆ ತಲುಪಬಲ್ಲವು, ಆದರೆ ಸಮಸ್ಯೆಯನ್ನು ಸರಿಪಡಿಸಲು ಅಗತ್ಯವಿರುವ ನಿರ್ದಿಷ್ಟ ಕೋಡ್ ಸಾಲುಗಳನ್ನು (lines of code) ಗುರುತಿಸುವಲ್ಲಿ ಅವು ಪದೇ ಪದೇ ವಿಫಲವಾಗುತ್ತವೆ.
SWE-Explore ಪರಿಚಯ: ರಿಪೇರಿ ದರಗಳ ಆಚೆಗಿನ ನೋಟ
ಐತಿಹಾಸಿಕವಾಗಿ, AI ಕೋಡಿಂಗ್ ಏಜೆಂಟ್ಗಳ ಪರಿಣಾಮಕಾರಿಯನ್ನು ಕೇವಲ ಒಂದು ಬೈನರಿ ಮಾಪಕದಿಂದ ಅಳೆಯಲಾಗುತ್ತಿತ್ತು: ಏಜೆಂಟ್ ಬಗ್ ಅನ್ನು ಸರಿಪಡಿಸಿದೆಯೇ ಅಥವಾ ಇಲ್ಲವೇ? ಈ ವಿಧಾನವು ವಿಫಲತೆಯ ಹಿಂದಿನ "ಏಕೆ" ಎಂಬ ಕಾರಣವನ್ನು ನಿರ್ಲಕ್ಷಿಸುತ್ತದೆ. ವಿಫಲವಾದ ರಿಪೇರಿಯು ಏಜೆಂಟ್ ತಪ್ಪಾದ ಪ್ಯಾಚ್ ಅನ್ನು ಬರೆಯಿತು ಎಂದಾಗಬಹುದು ಅಥವಾ ಏಜೆಂಟ್ ಸಂಬಂಧಿತ ಲಾಜಿಕ್ ಅನ್ನು ಎಂದಿಗೂ ಗಮನಿಸಲೇ ಇಲ್ಲ ಎಂದಾಗಬಹುದು.
ಈ ಅಂಧಾಕಾರದ ಅಂಶವನ್ನು (blind spot) ಹೋಗಲಾಡಿಸಲು, ಶಾಂಘೈ ಜಿಯಾವೊ ಟಾಂಗ್ ವಿಶ್ವವಿದ್ಯಾಲಯದ ವಿಜ್ಞಾನಿಗಳನ್ನು ಒಳಗೊಂಡ ಅಂತರಾಷ್ಟ್ರೀಯ ಸಂಶೋಧನಾ ತಂಡವು SWE-Explore ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಿದೆ. ಸಾಂಪ್ರದಾಯಿಕ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳಿಗ Unlike, SWE-Explore ಅಪ್ಸ್ಟ್ರೀಮ್ ಸರ್ಚ್ ಹಂತವನ್ನು ಪ್ರತ್ಯೇಕಿಸುತ್ತದೆ. ಇದು ಬಗ್ ವಿವರಣೆಯನ್ನು ಪಡೆದು, ಸಮಸ್ಯೆಗೆ ವಾಸ್ತವವಾಗಿ ಸಂಬಂಧಿಸಿದ ನಿರ್ದಿಷ್ಟ ಕೋಡ್ ವಿಭಾಗಗಳ ಶ್ರೇಣೀಕೃತ ಪಟ್ಟಿಯನ್ನು ನೀಡುವ ಏಜೆಂಟ್ನ ಸಾಮರ್ಥ್ಯವನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತದೆ. ಈ ಡೇಟಾಸೆಟ್ ವಿಸ್ತಾರವಾಗಿದ್ದು, 203 ಓಪನ್-ಸೋರ್ಸ್ ಪ್ರಾಜೆಕ್ಟ್ಗಳು ಮತ್ತು ಹತ್ತು ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆಗಳ ಒಟ್ಟು 848 ಕಾರ್ಯಗಳಿಂದ ಸಂಗ್ರಹಿಸಲಾಗಿದೆ, ಇದರಲ್ಲಿ Python ಅತ್ಯಂತ ಪ್ರಮುಖವಾಗಿದೆ (547 ಕಾರ್ಯಗಳು).
ನಿಖರತೆಯ ಅಂತರ: ಫೈಲ್ ಯಶಸ್ಸು vs ಸಾಲುಗಳ ವಿಫಲತೆ
ಈ ಅಧ್ಯಯನದ ಅತ್ಯಂತ ಗಮನಾರ್ಹ ಸಂಶೋಧನೆಯೆಂದರೆ ಫೈಲ್-ಮಟ್ಟದ ಮತ್ತು ಸಾಲು-ಮಟ್ಟದ ನಿಖರತೆಯ ನಡುವಿನ ಬೃಹತ್ ವ್ಯತ್ಯಾಸ. Claude Code, Codex, ಮತ್ತು OpenHands ನಂತಹ ಸಾಮಾನ್ಯ ಉದ್ದೇಶದ ಏಜೆಂಟ್ಗಳನ್ನು ಪರೀಕ್ಷಿಸಿದಾಗ, ಫಲಿತಾಂಶಗಳು ಹೀಗಿವೆ:
- ಫೈಲ್-ಮಟ್ಟದ ನಿಖರತೆ: ಏಜೆಂಟ್ಗಳು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ, ಸರಿಯಾದ ಸೋರ್ಸ್ ಫೈಲ್ಗಳನ್ನು ಯಶಸ್ವಿಯಾಗಿ ಗುರುತಿಸುತ್ತವೆ ಮತ್ತು ಅವುಗಳಿಗೆ ಹೆಚ್ಚಿನ ಶ್ರೇಣಿ ನೀಡುತ್ತವೆ.
- ಸಾಲು-ಮಟ್ಟದ ನಿಖರತೆ: ಕಾರ್ಯಕ್ಷಮತೆ ಕುಸಿಯುತ್ತದೆ. ಸಾಮಾನ್ಯ ಕೋಡಿಂಗ್ ಏಜೆಂಟ್ಗಳು ಸಮಸ್ಯೆಯನ್ನು ಸರಿಪಡಿಸಲು ಅಗತ್ಯವಿರುವ ನಿಜವಾದ ಕೋಡ್ ಸಾಲುಗಳಲ್ಲಿ ಕೇವಲ 14% ರಿಂದ 19% ರಷ್ಟನ್ನು ಮಾತ್ರ ಒಳಗೊಂಡಿವೆ.
ಆಸಕ್ತಿದಾಯಕ ವಿಷಯವೆಂದರೆ, ಕೇವಲ ಅಡಿಪಾಯದ ಲಾರ್ಜ್ ಲ್ಯಾಂಗ್ವೇಜ್ ಮಾಡೆಲ್ (LLM) ಅನ್ನು ಅಪ್ಗ್ರೇಡ್ ಮಾಡುವುದರಿಂದ ಇದು ಪರಿಹಾರವಾಗುವುದಿಲ್ಲ. OpenAI, Anthropic, Google, Moonshot ಅಥವಾ Zhipu ನ ಮಾಡೆಲ್ಗಳನ್ನು ಬಳಸಿದರೂ ಸಹ, ಮಾದರಿಯು ಒಂದೇ ಆಗಿರುತ್ತದೆ: ಹೆಚ್ಚಿನ ಫೈಲ್ ಹಿಟ್ ರೇಟ್ ಆದರೆ ಅತ್ಯಂತ ಕಳಪೆ ಸಾಲುಗಳ ಕವರೇಜ್. ಕೋಡ್ ಅನ್ನು ಪರಸ್ಪರ ಸಂಬಂಧಿತ ಬಿಲ್ಡಿಂಗ್ ಬ್ಲಾಕ್ಗಳ ನೆಟ್ವರ್ಕ್ ಎಂದು ಪರಿಗಣಿಸುವ ಮೂಲಕ CoSIL ನಂತಹ ವಿಶೇಷប្រಕಾರದ ವ್ಯವಸ್ಥೆಗಳು ಸಾಮಾನ್ಯ ಏಜೆಂಟ್ಗಳಿಗಿಂತ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಿದವು ಎಂದು ಸಂಶೋಧನೆಯು ಗಮನಿಸಿದೆ, ಇದು ಕೇವಲ ಮಾಡೆಲ್ ಶಕ್ತಿಗಿಂತ ವಾಸ್ತುಶಿಲ್ಪದ (architectural) ಬದಲಾವಣೆಗಳು ಹೆಚ್ಚು ಮುಖ್ಯ ಎಂಬುದನ್ನು ಸೂಚಿಸುತ್ತದೆ.
ಥ್ರೆಶೋಲ್ಡ್ ಎಫೆಕ್ಟ್: "ಹೆಚ್ಚು ಓದುವುದು" ಏಕೆ ಮುಖ್ಯವಾಗುತ್ತದೆ
Through controlled ablation experiments, researchers discovered a "threshold effect" regarding context. By varying the amount of core code provided to the model (from 0% to 100%), they found that repairs do not improve linearly.
For easier tasks, there is a clear tipping point: if an agent sees less than 50% of the necessary core regions, the repair success rate stays near zero. A significant jump in successful repairs only occurs once the agent has access to between 50% and 75% of the required context. Crucially, the study found that providing irrelevant "noise" code does not hurt performance as much as missing the critical lines. The takeaway for developers is clear: in the era of AI agents, it is better to provide more context than to risk filtering out the essential details.
Key Takeaways
- Localization is the bottleneck: AI agents are proficient at finding the right file but struggle significantly to pinpoint the specific lines of code required for a fix.
- Model scaling isn't a silver bullet: Upgrading to more powerful LLMs does not fix the line-level accuracy gap; specialized architectural approaches like CoSIL are more effective.
- The 50% Context Rule: AI repair success follows a threshold pattern, requiring at least 50-75% of the relevant code context to be visible before successful fixes become probable.