Review Kode GLM-5.2 Bergantung pada Prompt Anda

GLM-5.2 dari Z.ai adalah model open-weight yang populer. Kami mengujinya untuk melihat seberapa baik model ini melakukan review kode. Kami menemukan bahwa kualitasnya berubah tergantung pada cara Anda berinteraksi dengannya.

Kami menjalankan dua pengujian. Pada pengujian pertama, kami menggunakan backend TypeScript sederhana dengan 16 bug. Pada pengujian kedua, kami membangun sistem kompleks dengan 10 bug yang halus. Bug-bug ini memerlukan pemahaman tentang bagaimana berbagai bagian aplikasi bekerja bersama.

Berikut adalah apa yang kami pelajari:

  • Susunan kata dalam prompt lebih penting daripada upaya penalaran (reasoning effort). Mengubah prompt memberikan perubahan hasil yang lebih besar daripada beralih dari mode penalaran rendah ke tinggi.
  • Prompt yang terlalu ketat bisa berdampak buruk. Jika Anda memerintahkan model untuk "memblokir atau menyetujui PR produksi," ia akan fokus pada keamanan. Ia menemukan rahasia yang tertulis langsung (hardcoded secrets) dan hashing yang lemah, namun melewatkan bug logika sebenarnya yang ingin Anda temukan.
  • Bug lokal mudah ditemukan oleh GLM-5.2. Ia dapat menangkap kesalahan di dalam satu fungsi tunggal, seperti guard izin yang rusak atau variabel yang salah.
  • Bug di seluruh sistem sulit bagi GLM-5.2. Ia kesulitan dengan aturan yang tersebar di beberapa file. Sebagai contoh, ia melewatkan saat tugas yang diarsipkan bocor ke hasil pencarian dan ekspor.
  • Model frontier lebih andal. GPT-5.5 dan Opus 4.8 berhasil menangkap bug lintas-rute yang kompleks dalam satu kali jalan (single pass). GLM-5.2 tidak konsisten dalam tugas-tugas seperti ini.

Cara menggunakan GLM-5.2 secara efektif:

  • Gunakan untuk logika lokal. Model ini sangat bagus untuk menemukan kesalahan di dalam satu fungsi.
  • Berikan instruksi yang spesifik. Alih-alih meminta review yang "ketat", mintalah ia untuk memeriksa konsistensi di berbagai rute yang berbeda.
  • Sebutkan perilaku yang ingin Anda periksa. Beritahu ia untuk memverifikasi apakah pencarian, ekspor, dan daftar semuanya menangani data dengan cara yang sama.
  • Jangan mengandalkan satu kali jalan untuk kode yang berisiko tinggi. Karena hasilnya bervariasi, Anda harus menjalankannya beberapa kali atau menggunakan model yang lebih kuat untuk perubahan yang kompleks.

GLM-5.2 adalah alat yang mumpuni, tetapi Anda harus menyesuaikan prompt dengan tugasnya.

Sumber: https://dev.to/kilocode/glm-52s-code-reviews-are-only-as-good-as-your-prompt-5233

Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi