Las revisiones de código de GLM-5.2 dependen de tus prompts

GLM-5.2 de Z.ai es un modelo de pesos abiertos muy popular. Lo pusimos a prueba para ver qué tan bien revisa el código. Descubrimos que su calidad cambia dependiendo de cómo interactúes con él.

Realizamos dos pruebas. En la primera, utilizamos un backend sencillo en TypeScript con 16 errores. En la segunda, construimos un sistema complejo con 10 errores sutiles. Estos errores requerían comprender cómo interactúan las diferentes partes de la aplicación.

Esto es lo que aprendimos:

  • La redacción del prompt importa más que el esfuerzo de razonamiento. Cambiar el prompt alteró los resultados más que cambiar de un modo de razonamiento bajo a uno alto.
  • Los prompts estrictos pueden ser contraproducentes. Si le dices al modelo que "bloquee o apruebe un PR de producción", se centrará en la seguridad. Encontrará secretos integrados en el código y hashing débil, pero pasará por alto los errores de lógica reales que quieres que encuentre.
  • Los errores locales son fáciles para GLM-5.2. Detecta errores dentro de una sola función, como un guardián de permisos defectuoso o una variable incorrecta.
  • Los errores a nivel de sistema son difíciles para GLM-5.2. Le cuesta manejar reglas que se extienden a través de múltiples archivos. Por ejemplo, no detectó cuando las tareas archivadas se filtraban en los resultados de búsqueda y las exportaciones.
  • Los modelos de vanguardia son más fiables. GPT-5.5 y Opus 4.8 detectaron los errores complejos y de rutas cruzadas en una sola pasada. GLM-5.2 es inconsistente con estas tareas.

Cómo usar GLM-5.2 de manera efectiva:

  • Úsalo para lógica local. Es excelente para encontrar errores dentro de una sola función.
  • Sé específico con tus instrucciones. En lugar de pedir una revisión "estricta", pídele que compruebe la consistencia entre diferentes rutas.
  • Nombra los comportamientos que quieres verificar. Dile que compruebe si las búsquedas, las exportaciones y las listas manejan los datos de la misma manera.
  • No confíes en una sola pasada para código crítico. Debido a que los resultados varían, deberías ejecutarlo varias veces o utilizar un modelo más potente para cambios complejos.

GLM-5.2 es una herramienta capaz, pero debes adaptar el prompt a la tarea.

Source: https://dev.to/kilocode/glm-52s-code-reviews-are-only-as-good-as-your-prompt-5233

Optional learning community: https://t.me/GyaanSetuAi