Przeglądy kodu w GLM-5.2 zależą od Twoich promptów
GLM-5.2 od Z.ai to popularny model typu open-weight. Przetestowaliśmy go, aby sprawdzić, jak dobrze radzi sobie z przeglądem kodu. Okazało się, że jego jakość zmienia się w zależności od sposobu, w jaki formułujesz zapytania.
Przeprowadziliśmy dwa testy. W pierwszym wykorzystaliśmy prosty backend w TypeScript z 16 błędami. W drugim zbudowaliśmy złożony system z 10 subtelnymi błędami. Błędy te wymagały zrozumienia, jak poszczególne części aplikacji współpracują ze sobą.
Oto nasze wnioski:
- Sformułowanie promptu ma większe znaczenie niż poziom wysiłku rozumowania. Zmiana promptu wpłynęła na wyniki bardziej niż przełączenie trybu rozumowania z niskiego na wysoki.
- Zbyt rygorystyczne prompty mogą przynieść odwrotny skutek. Jeśli polecisz modelowi „zablokować lub zatwierdzić PR produkcyjny”, skupi się on na bezpieczeństwie. Znajdzie zaszyte na sztywno sekrety i słabe hashowanie, ale przeoczy rzeczywiste błędy logiczne, których szukasz.
- Lokalne błędy nie stanowią problemu dla GLM-5.2. Model wyłapuje błędy wewnątrz pojedynczej funkcji, takie jak uszkodzona ochrona uprawnień czy błędna zmienna.
- Błędy systemowe są trudne dla GLM-5.2. Model ma problem z regułami rozproszonymi w wielu plikach. Na przykład nie zauważył, że zarchiwizowane zadania wyciekają do wyników wyszukiwania i eksportów.
- Modele typu frontier są bardziej niezawodne. GPT-5.5 i Opus 4.8 wykryły złożone błędy między trasami (cross-route) już przy pierwszym podejściu. GLM-5.2 wykazuje w tych zadaniach niespójność.
Jak skutecznie korzystać z GLM-5.2:
- Używaj go do logiki lokalnej. Świetnie radzi sobie z wykrywaniem błędów w obrębie jednej funkcji.
- Bądź precyzyjny w instrukcjach. Zamiast prosić o „rygorystyczny” przegląd, poproś o sprawdzenie spójności między różnymi trasami (routes).
- Wymień zachowania, które chcesz sprawdzić. Poleć modelowi zweryfikowanie, czy wyszukiwanie, eksporty i listy przetwarzają dane w ten sam sposób.
- Nie polegaj na pojedynczym podejściu w przypadku krytycznego kodu. Ponieważ wyniki bywają zmienne, powinieneś uruchamiać model wielokrotnie lub użyć silniejszego modelu przy złożonych zmianach.
GLM-5.2 to zdolne narzędzie, ale musisz dopasować prompt do zadania.
Źródło: https://dev.to/kilocode/glm-52s-code-reviews-are-only-as-good-as-your-prompt-5233
Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi
