GLM-5.2 Code Reviews Depend On Your Prompts

GLM-5.2 di Z.ai è un popolare modello open-weight. Lo abbiamo testato per vedere quanto sia efficace nella revisione del codice. Abbiamo scoperto che la sua qualità varia a seconda di come interagisci con esso.

Abbiamo eseguito due test. Nel primo test, abbiamo utilizzato un semplice backend TypeScript con 16 bug. Nel secondo test, abbiamo costruito un sistema complesso con 10 bug sottili. Questi bug richiedevano la comprensione di come le diverse parti dell'app interagiscano tra loro.

Ecco cosa abbiamo imparato:

  • La formulazione del prompt conta più dello sforzo di ragionamento. Cambiare il prompt ha influenzato i risultati più del passaggio da modalità di ragionamento bassa ad alta.
  • I prompt troppo rigidi possono rivelarsi controproducenti. Se istruisci il modello a "bloccare o approvare una PR di produzione", si concentrerà sulla sicurezza. Troverà segreti hardcoded e hashing deboli, ma ignorerà i bug logici effettivi che vorresti individuare.
  • I bug locali sono facili per GLM-5.2. Individua errori all'interno di una singola funzione, come un controllo dei permessi errato o una variabile sbagliata.
  • I bug a livello di sistema sono difficili per GL