La trampa de las pruebas de IA
Escuchas a alguien decir "enviamos un 40% más de pruebas este trimestre" y todos asienten.
Vi esto suceder en una empresa SaaS en Tokio. El responsable de QA estaba orgulloso. La gerencia estaba contenta. El pipeline estaba en verde.
Seis semanas después, un sistema de pagos falló durante 72 horas. Nadie se dio cuenta porque la IA escribió pruebas que verificaban la "ausencia de errores" en lugar de "datos correctos".
Esto es la Ceguera de Pruebas (Testing Blindness).
Ocurre cuando tu equipo genera muchas pruebas pero no puede distinguir cuándo esas pruebas te están mintiendo. La IA hace que sea fácil confundir la cobertura de pruebas con la calidad de las mismas.
Una publicación reciente en Qiita muestra exactamente esta lucha. Un ingeniero utilizó IA para gestionar proyectos sin automatización. Las pruebas llegaron rápido. Las métricas se veían geniales.
Pero el ingeniero tuvo que aprender Playwright y pruebas de API manualmente. ¿Por qué? Porque la IA podía escribir la sintaxis, pero no entendía cómo funcionaba el sistema.
La Ceguera de Pruebas tiene tres síntomas principales:
• Atrofia de aserciones: Las pruebas pasan porque comprueban si el código falla, no si funciona correctamente. • Ceguera de casos límite: La IA se centra en los "happy paths". Ignora los casos de borde (edge cases) como entradas nulas o condiciones de carrera (race conditions). • Inflación de confianza en la regresión: Te sientes seguro porque el número de pruebas se duplicó. En realidad, solo duplicaste tu falsa confianza.
En mi experiencia, los equipos pasan de cero pruebas a 1,200 pruebas en cuestión de meses usando IA. Los informes parecen perfectos. La tasa real de detección de errores disminuye.
En Japón, el enfoque en la gestión y los procesos (kanri) puede hacer que estos números elevados parezcan un éxito. En Occidente, los equipos suelen saltarse las pruebas porque la IA lo hace fácil. Ambos caminos conducen a fallos en producción.
La IA optimiza las métricas mientras perjudica tu capacidad de depuración (debugging).
Si utilizas IA en QA, sigue estas reglas:
- Audita las pruebas semanalmente: Elige 5 pruebas de IA al azar. Pregunta: "¿Qué haría que esta prueba pasara incorrectamente?". Si no puedes responder rápido, tienes un punto ciego.
- Establece una cuota de límites: Por cada 10 pruebas de IA, escribe 2 pruebas de casos de borde manualmente.
- Usa la prueba de las 3 a. m.: Pregunta si estas pruebas detectarían un fallo a las 3 de la mañana. Si no estás seguro, no son lo suficientemente buenas.
- Mantén un módulo manual: Prueba una sección crítica a mano. Esto mantiene agudas tus habilidades de depuración.
No confundas el volumen de pruebas con la calidad de las mismas. No permitas que la eficiencia reemplace al juicio. Las pruebas que te salvan son las que realmente comprendes.
¿Ha notado tu equipo una disminución en la calidad de las pruebas desde que utiliza IA? Comparte tu experiencia a continuación.
Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi