Przeglądy kodu w GLM-5.2 zależą od Twoich promptów

GLM-5.2 od Z.ai to popularny model typu open-weight. Przetestowaliśmy go, aby sprawdzić, jak dobrze radzi sobie z przeglądem kodu. Okazało się, że jego jakość zmienia się w zależności od sposobu, w jaki formułujesz zapytania.

Przeprowadziliśmy dwa testy. W pierwszym wykorzystaliśmy prosty backend w TypeScript z 16 błędami. W drugim zbudowaliśmy złożony system z 10 subtelnymi błędami. Błędy te wymagały zrozumienia, jak poszczególne części aplikacji współpracują ze sobą.

Oto nasze wnioski:

  • Sformułowanie promptu ma większe znaczenie niż poziom wysiłku rozumowania. Zmiana promptu wpłynęła na wyniki bardziej niż przełączenie trybu rozumowania z niskiego na wysoki.
  • Zbyt rygorystyczne prompty mogą przynieść odwrotny skutek. Jeśli polecisz modelowi „zablokować lub zatwierdzić PR produkcyjny”, skupi się on na bezpieczeństwie. Znajdzie zaszyte na sztywno sekrety i słabe hashowanie, ale przeoczy rzeczywiste błędy logiczne, których szukasz.
  • Lokalne błędy nie stanowią problemu dla GLM-5.2. Model wyłapuje błędy wewnątrz pojedynczej funkcji, takie jak uszkodzona ochrona uprawnień czy błędna zmienna.
  • Błędy systemowe są trudne dla GLM-5.2. Model ma problem z regułami rozproszonymi w wielu plikach. Na przykład nie zauważył, że zarchiwizowane zadania wyciekają do wyników wyszukiwania i eksportów.
  • Modele typu frontier są bardziej niezawodne. GPT-5.5 i Opus 4.8 wykryły złożone błędy między trasami (cross-route) już przy pierwszym podejściu. GLM-5.2 wykazuje w tych zadaniach niespójność.

Jak skutecznie korzystać z GLM-5.2:

  • Używaj go do logiki lokalnej. Świetnie radzi sobie z wykrywaniem błędów w obrębie jednej funkcji.
  • Bądź precyzyjny w instrukcjach. Zamiast prosić o „rygorystyczny” przegląd, poproś o sprawdzenie spójności między różnymi trasami (routes).
  • Wymień zachowania, które chcesz sprawdzić. Poleć modelowi zweryfikowanie, czy wyszukiwanie, eksporty i listy przetwarzają dane w ten sam sposób.
  • Nie polegaj na pojedynczym podejściu w przypadku krytycznego kodu. Ponieważ wyniki bywają zmienne, powinieneś uruchamiać model wielokrotnie lub użyć silniejszego modelu przy złożonych zmianach.

GLM-5.2 to zdolne narzędzie, ale musisz dopasować prompt do zadania.

Źródło: https://dev.to/kilocode/glm-52s-code-reviews-are-only-as-good-as-your-prompt-5233

Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi