Mengapa Ejen Pengekodan AI Gagal: Jurang Kritikal Antara Fail dan Baris Kod

Walaupun ejen pengekodan AI semakin berkemampuan untuk menyelesaikan pepijat perisian, satu kajian baharu mendedahkan bahawa mereka mengalami masalah "lokalisasi" yang ketara. Mereka boleh menavigasi ke fail yang betul dalam pangkalan kod yang besar, tetapi mereka sering gagal mengenal pasti baris kod khusus yang diperlukan untuk melaksanakan pembaikan.

Memperkenalkan SWE-Explore: Melangkaui Kadar Pembaikan

Secara sejarahnya, keberkesanan ejen pengekodan AI telah diukur melalui satu metrik binari tunggal: adakah ejen tersebut membaiki pepijat atau tidak? Pendekatan ini mengabaikan faktor "mengapa" di sebalik kegagalan. Pembaikan yang gagal mungkin bermaksud ejen tersebut menulis tampalan yang buruk, atau ia mungkin bermaksud ejen tersebut tidak pernah melihat logik yang berkaitan.

Untuk menangani titik buta ini, sebuah pasukan penyelidik antarabangsa, termasuk saintis dari Shanghai Jiao Tong University, telah membangunkan SWE-Explore. Tidak seperti penanda aras tradisional, SWE-Explore mengasingkan fasa carian huluan. Ia menilai keupayaan ejen untuk mengambil huraian pepijat dan mengembalikan senarai berperingkat bahagian kod khusus yang sebenarnya relevan dengan masalah tersebut. Set data ini adalah luas, merangkumi 848 tugasan merentasi 203 projek sumber terbuka dan sepuluh bahasa pengaturcaraan, dengan Python sebagai yang paling menonjol (547 tugasan).

Jurang Ketepatan: Kejayaan Fail vs. Kegagalan Baris

Penemuan paling mengejutkan dalam kajian ini adalah perbezaan besar antara ketepatan tahap fail dan tahap baris. Apabila diuji terhadap ejen tujuan umum seperti Claude Code, Codex, dan OpenHands, keputusannya sangat jelas:

  • Ketepatan tahap fail: Ejen menunjukkan prestasi yang baik, berjaya mengenal pasti fail sumber yang betul dan menyusunnya dengan kedudukan tinggi.
  • Ketepatan tahap baris: Prestasi merosot tajam. Ejen pengekodan umum hanya meliputi 14% hingga 19% daripada baris kod sebenar yang penting untuk pembaikan.

Menariknya, sekadar menaik taraf Model Bahasa Besar (LLM) yang mendasari tidak menyelesaikan masalah ini. Sama ada menggunakan model daripada OpenAI, Anthropic, Google, Moonshot, atau Zhipu, coraknya tetap sama: kadar padanan fail yang tinggi tetapi liputan baris yang sangat teruk. Penyelidikan tersebut menyatakan bahawa sistem khusus seperti CoSIL mengatasi ejen umum dengan mengendalikan kod sebagai rangkaian blok binaan yang saling berhubungan, yang menunjukkan bahawa perubahan seni bina adalah lebih penting daripada kuasa model mentah.

Kesan Ambang: Mengapa "Membaca Lebih Banyak" Itu Penting

Melalui eksperimen ablasi terkawal, penyelidik menemui "kesan ambang" berkaitan konteks. Dengan mengubah jumlah kod teras yang diberikan kepada model (daripada 0% hingga 100%), mereka mendapati bahawa pembaikan tidak bertambah baik secara linear.

Bagi tugasan yang lebih mudah, terdapat titik perubahan yang jelas: jika ejen melihat kurang daripada 50% daripada kawasan teras yang diperlukan, kadar kejayaan pembaikan kekal hampir sifar. Lonjakan ketara dalam pembaikan yang berjaya hanya berlaku sebaik sahaja ejen mempunyai akses kepada antara 50% hingga 75% konteks yang diperlukan. Yang paling penting, kajian mendapati bahawa menyediakan kod "hingar" yang tidak relevan tidak menjejaskan prestasi seburuk kehilangan baris-baris kritikal. Pengajaran bagi pembangun adalah jelas: dalam era ejen AI, adalah lebih baik untuk menyediakan lebih banyak konteks daripada mengambil risiko menapis butiran penting.

Rumusan Utama

  • Lokalisasi adalah kekangan utama: Ejen AI mahir dalam mencari fail yang betul tetapi bergelut dengan ketara untuk mengenal pasti baris kod khusus yang diperlukan untuk pembaikan.
  • Penskalaan model bukanlah penyelesaian ajaib: Menaik taraf kepada LLM yang lebih berkuasa tidak menyelesaikan jurang ketepatan pada peringkat baris; pendekatan seni bina khusus seperti CoSIL adalah lebih berkesan.
  • Peraturan Konteks 50%: Kejayaan pembaikan AI mengikut corak ambang, memerlukan sekurang-kurangnya 50-75% konteks kod yang relevan untuk dilihat sebelum pembaikan yang berjaya menjadi berkemungkinan.