Las revisiones de código de GLM 5.2 dependen de tus prompts

Translated for your language. Leer el original.

AI-assisted draft.

GyaanSetu Editorialla semana pasada2min de lectura

Las revisiones de código de GLM-5.2 dependen de tus prompts

GLM-5.2 de Z.ai es un modelo de pesos abiertos muy popular. Lo pusimos a prueba para ver qué tan bien revisa el código. Descubrimos que su calidad cambia dependiendo de cómo interactúes con él.

Realizamos dos pruebas. En la primera, utilizamos un backend sencillo en TypeScript con 16 errores. En la segunda, construimos un sistema complejo con 10 errores sutiles. Estos errores requerían comprender cómo interactúan las diferentes partes de la aplicación.

Esto es lo que aprendimos:

La redacción del prompt importa más que el esfuerzo de razonamiento. Cambiar el prompt alteró los resultados más que cambiar de un modo de razonamiento bajo a uno alto.
Los prompts estrictos pueden ser contraproducentes. Si le dices al modelo que "bloquee o apruebe un PR de producción", se centrará en la seguridad. Encontrará secretos integrados en el código y hashing débil, pero pasará por alto los errores de lógica reales que quieres que encuentre.
Los errores locales son fáciles para GLM-5.2. Detecta errores dentro de una sola función, como un guardián de permisos defectuoso o una variable incorrecta.
Los errores a nivel de sistema son difíciles para GLM-5.2. Le cuesta manejar reglas que se extienden a través de múltiples archivos. Por ejemplo, no detectó cuando las tareas archivadas se filtraban en los resultados de búsqueda y las exportaciones.
Los modelos de vanguardia son más fiables. GPT-5.5 y Opus 4.8 detectaron los errores complejos y de rutas cruzadas en una sola pasada. GLM-5.2 es inconsistente con estas tareas.

Cómo usar GLM-5.2 de manera efectiva:

Úsalo para lógica local. Es excelente para encontrar errores dentro de una sola función.
Sé específico con tus instrucciones. En lugar de pedir una revisión "estricta", pídele que compruebe la consistencia entre diferentes rutas.
Nombra los comportamientos que quieres verificar. Dile que compruebe si las búsquedas, las exportaciones y las listas manejan los datos de la misma manera.
No confíes en una sola pasada para código crítico. Debido a que los resultados varían, deberías ejecutarlo varias veces o utilizar un modelo más potente para cambios complejos.

GLM-5.2 es una herramienta capaz, pero debes adaptar el prompt a la tarea.

Source: https://dev.to/kilocode/glm-52s-code-reviews-are-only-as-good-as-your-prompt-5233

Optional learning community: https://t.me/GyaanSetuAi

Las revisiones de código de GLM 5.2 dependen de tus prompts

Seguir leyendo

𝗠𝗮𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗟𝗟𝗠 𝗣𝗿𝗼𝗺𝗽𝘁𝗶𝗻𝗴: 𝗔 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿'𝘀 𝗚𝘂𝗶𝗱𝗲

Evaluación de la calidad de los resultados de los LLM en producción