GLM-5.2 code reviews zijn afhankelijk van je prompts

GLM-5.2 van Z.ai is een populair open-weight model. We hebben het getest om te zien hoe goed het code beoordeelt. We ontdekten dat de kwaliteit verandert afhankelijk van hoe je ermee communiceert.

We hebben twee tests uitgevoerd. In de eerste test gebruikten we een eenvoudige TypeScript-backend met 16 bugs. In de tweede test bouwden we een complex systeem met 10 subtiele bugs. Deze bugs vereisten inzicht in hoe verschillende onderdelen van de app samenwerken.

Dit is wat we hebben geleerd:

  • De formulering van de prompt is belangrijker dan de redeneerinspanning. Het aanpassen van de prompt veranderde de resultaten meer dan het wisselen tussen lage en hoge reasoning-modi.
  • Strikte prompts kunnen averechts werken. Als je het model vraagt om een "production PR te blokkeren of goed te keuren", richt het zich op beveiliging. Het vindt hardcoded secrets en zwakke hashing, maar mist de eigenlijke logische bugs die je wilt laten vinden.
  • Lokale bugs zijn eenvoudig voor GLM-5.2. Het vangt fouten op binnen een enkele functie, zoals een defecte permission guard of een verkeerde variabele.
  • Systeembrede bugs zijn moeilijk voor GLM-5.2. Het heeft moeite met regels die zich over meerdere bestanden verspreiden. Zo miste het bijvoorbeeld wanneer gearchiveerde taken doorsijpelden in zoekresultaten en exports.
  • Frontier-modellen zijn betrouwbaarder. GPT-5.5 en Opus 4.8 vonden de complexe, cross-route bugs in één keer. GLM-5.2 is inconsistent bij dit soort taken.

Hoe je GLM-5.2 effectief gebruikt:

  • Gebruik het voor lokale logica. Het is uitstekend in het vinden van fouten binnen één functie.
  • Wees specifiek in je instructies. Vraag in plaats van een "strikte" review om te controleren op consistentie tussen verschillende routes.
  • Benoem de gedragingen die je wilt controleren. Vertel het model om te verifiëren of zoeken, exports en lijsten allemaal op dezelfde manier met gegevens omgaan.
  • Vertrouw niet op één enkele pass voor kritieke code. Omdat de resultaten variëren, kun je het model beter meerdere keren draaien of een krachtiger model gebruiken voor complexe wijzigingen.

GLM-5.2 is een bekwaam hulpmiddel, maar je moet de prompt afstemmen op de taak.

Bron: https://dev.to/kilocode/glm-52s-code-reviews-are-only-as-good-as-your-prompt-5233

Optionele leercommunity: https://t.me/GyaanSetuAi