GLM-5.2 Code Reviews Depend On Your Prompts
GLM-5.2 daripada Z.ai ialah model open-weight yang popular. Kami mengujinya untuk melihat sejauh mana keberkesanannya dalam menyemak kod. Kami mendapati bahawa kualitinya berubah bergantung pada cara anda berkomunikasi dengannya.
Kami menjalankan dua ujian. Dalam ujian pertama, kami menggunakan backend TypeScript yang ringkas dengan 16 pepijat. Dalam ujian kedua, kami membina sistem yang kompleks dengan 10 pepijat yang halus. Pepijat ini memerlukan pemahaman tentang bagaimana bahagian-bahagian aplikasi yang berbeza berfungsi bersama.
Berikut adalah apa yang kami pelajari:
- Susunan kata prompt lebih penting daripada usaha penaakulan (reasoning effort). Mengubah prompt memberikan perubahan hasil yang lebih ketara berbanding menukar daripada mod penaakulan rendah ke tinggi.
- Prompt yang ketat boleh memakan diri. Jika anda mengarahkan model untuk "menyekat atau meluluskan PR pengeluaran (production PR)," ia akan menumpukan pada keselamatan. Ia menemui rahsia yang dikodkan secara keras (hardcoded secrets) dan pengisihan (hashing) yang lemah, tetapi terlepas pepijat logik sebenar yang anda mahu ia temui.
- Pepijat lokal adalah mudah bagi GLM-5.2. Ia dapat mengesan ralat di dalam satu fungsi sahaja, seperti pelindung kebenaran (permission guard) yang rosak atau pemboleh ubah yang salah.
- Pepijat pada peringkat sistem adalah sukar bagi GLM-5.2. Ia bergelut dengan peraturan yang tersebar merentasi pelbagai fail. Sebagai contoh, ia terlepas apabila tugasan yang diarkibkan bocor ke dalam keputusan carian dan eksport.
- Model frontier adalah lebih boleh dipercayai. GPT-5.5 dan Opus 4.8 berjaya mengesan pepijat rentas-laluan (cross-route) yang kompleks dalam satu cubaan. GLM-5.2 tidak konsisten dengan tugasan sebegini.
Cara menggunakan GLM-5.2 secara berkesan:
- Gunakannya untuk logik lokal. Ia sangat bagus untuk mencari ralat dalam satu fungsi.
- Berikan arahan yang spesifik. Daripada meminta semakan yang "ketat", minta ia menyemak konsistensi merentasi laluan (routes) yang berbeza.
- Nyatakan tingkah laku yang ingin anda semak. Beritahu ia untuk mengesahkan sama ada carian, eksport, dan senarai semuanya mengendalikan data dengan cara yang sama.
- Jangan bergantung pada satu cubaan sahaja untuk kod berisiko tinggi. Oleh kerana hasilnya berbeza-beza, anda harus menjalankannya beberapa kali atau menggunakan model yang lebih kuat untuk perubahan yang kompleks.
GLM-5.2 ialah alat yang berkemampuan, tetapi anda mesti menyesuaikan prompt dengan tugasan tersebut.
Sumber: https://dev.to/kilocode/glm-52s-code-reviews-are-only-as-good-as-your-prompt-5233
Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi
