Ningún agente califica su propia tarea

Le pides a Claude que revise tu código. Dice que el código se ve limpio. Por supuesto que lo dice. Él escribió ese código hace cinco minutos. Le pediste al autor que calificara su propio examen. Se puso un sobresaliente.

Las revisiones de código por IA funcionan. Fallan cuando le pides al autor que revise su propio trabajo. La calidad proviene de una arquitectura donde ningún rol se supervisa a sí mismo.

Investigaciones de 2024 muestran un sesgo de autopreferencia. Un modelo califica su propio resultado más alto que otros de igual calidad. El modelo reconoce su propio estilo y lo prefiere.

El ciclo de "escribir, luego revisar lo que acabas de escribir" está roto. No obtienes una revisión. Obtienes una justificación. El agente ya decidió que el código era bueno. Preguntar de nuevo solo confirma esa decisión.

Sigue estas reglas para construir mejores flujos de trabajo de agentes:

  • El revisor nunca es el autor. Usa una familia de modelos diferente para el revisor para romper el reconocimiento de estilo.
  • Usa un contexto limpio. El revisor no debe ver el prompt de implementación original ni las restricciones establecidas por el autor.
  • Elimina la identidad. No le digas al revisor quién escribió el código. La identidad del autor desencadena el sesgo.
  • Evita el exceso de alertas (over-flagging). Los revisores de IA a menudo inventan problemas para parecer útiles. Esto hace que dejes de escucharlos.

Usa la regla del recibo para detener las falsas alarmas. Cada hallazgo debe incluir una prueba antes de que lo veas.

Si un revisor afirma que existe un riesgo de inyección SQL, debe proporcionar:

  • Un grep de la entrada del usuario.
  • Un trazo del flujo de la consulta.

Si el valor es una constante, descarta el hallazgo. Si proviene de una solicitud HTTP, mantenlo. La prueba precede al juicio.

Para hallazgos críticos, utiliza un panel de escépticos. Su trabajo no es confirmar el error. Su trabajo es refutarlo. Deben intentar demostrar por qué el hallazgo no es un error. Si la mayoría no logra desmantelar el hallazgo, solo entonces se aprueba.

La verdad surge de la contradicción, no de la autodeclaración.

Construye un sistema donde los roles nunca se solapen:

  • El escritor escribe el código.
  • El tester escribe pruebas basándose únicamente en la especificación.
  • El revisor no escribió el código.
  • Las puertas de enlace objetivas, como el linting y las pruebas, deben aprobarse antes de que cualquier humano o LLM lo vea.

Un corrector que se corrige a sí mismo no corrige nada. La calidad de una revisión de IA depende de cuántas veces evites que se califique a sí misma.

Fuente: https://dev.to/ohugonnot/no-agent-grades-its-own-homework-8lb

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi