GLM-5.2 Code-Reviews hängen von Ihren Prompts ab
GLM-5.2 von Z.ai ist ein beliebtes Open-Weight-Modell. Wir haben es getestet, um zu sehen, wie gut es Code überprüft. Wir haben festgestellt, dass sich die Qualität je nach Art der Interaktion verändert.
Wir haben zwei Tests durchgeführt. Im ersten Test verwendeten wir ein einfaches TypeScript-Backend mit 16 Fehlern. Im zweiten Test haben wir ein komplexes System mit 10 subtilen Fehlern aufgebaut. Diese Fehler erforderten ein Verständnis dafür, wie verschiedene Teile der Anwendung zusammenarbeiten.
Das haben wir gelernt:
- Die Formulierung des Prompts ist wichtiger als der Reasoning-Aufwand. Eine Änderung des Prompts veränderte die Ergebnisse stärker als der Wechsel von einem niedrigen zu einem hohen Reasoning-Modus.
- Strenge Prompts können nach hinten losgehen. Wenn Sie dem Modell sagen, es solle einen „Production PR blockieren oder genehmigen“, konzentriert es sich auf die Sicherheit. Es findet hartcodierte Secrets und schwaches Hashing, übersieht aber die eigentlichen Logikfehler, die es finden soll.
- Lokale Fehler sind für GLM-5.2 einfach. Es erkennt Fehler innerhalb einer einzelnen Funktion, wie etwa eine fehlerhafte Permission Guard oder eine falsche Variable.
- Systemweite Fehler sind schwierig für GLM-5.2. Es hat Probleme mit Regeln, die sich über mehrere Dateien erstrecken. Zum Beispiel wurde nicht erkannt, dass archivierte Aufgaben in Suchergebnissen und Exporte durchsickerten.
- Frontier-Modelle sind zuverlässiger. GPT-5.5 und Opus 4.8 erkannten die komplexen, routenübergreifenden Fehler in einem einzigen Durchgang. GLM-5.2 ist bei diesen Aufgaben inkonsistent.
So nutzen Sie GLM-5.2 effektiv:
- Nutzen Sie es für lokale Logik. Es eignet sich hervorragend, um Fehler innerhalb einer Funktion zu finden.
- Seien Sie bei Ihren Anweisungen spezifisch. Anstatt nach einem „strengen“ Review zu fragen, bitten Sie es, die Konsistenz über verschiedene Routen hinweg zu prüfen.
- Benennen Sie die Verhaltensweisen, die Sie prüfen möchten. Sagen Sie dem Modell, es soll verifizieren, ob Suche, Exporte und Listen alle Daten auf die gleiche Weise verarbeiten.
- Verlassen Sie sich bei kritischem Code nicht auf einen einzigen Durchgang. Da die Ergebnisse variieren, sollten Sie den Prozess mehrfach durchlaufen lassen oder für komplexe Änderungen ein stärkeres Modell verwenden.
GLM-5.2 ist ein leistungsfähiges Werkzeug, aber Sie müssen den Prompt auf die Aufgabe abstimmen.
Quelle: https://dev.to/kilocode/glm-52s-code-reviews-are-only-as-good-as-your-prompt-5233
Optionale Lern-Community: https://t.me/GyaanSetuAi
