Los agentes de programación escriben Swift bien, pero no pueden terminarlo

Pasé meses probando agentes de programación de IA en tareas reales de Swift y Xcode. No utilicé demostraciones simples. Les asigné tareas reales con objetivos de compilación y pruebas.

El primer borrador suele estar bien. Un modelo capaz escribe código que parece correcto. Los tipos coinciden. Las vistas tienen sentido. Si escribir Swift fuera el único problema, estas herramientas estarían terminadas.

El verdadero problema ocurre después del primer borrador. Es la brecha entre el código que parece terminado y el código que es realmente correcto.

Las herramientas modernas como Claude Code o Codex gestionan bien los errores de compilación. No te entregan código que no compila. Los fallos reales son aquellos que el compilador no puede ver.

Estos fallos me hacen perder el tiempo:

• Desajuste de intención: El código compila y las pruebas pasan. Sin embargo, el comportamiento es incorrecto. El agente sigue la "luz verde" de una prueba superada en lugar de tu objetivo real. No tiene forma de verificar la intención.

• Carreras de concurrencia: El código compila sin errores pero tiene condiciones de carrera (data races). Estas solo aparecen durante el tiempo de ejecución. El agente ve una compilación exitosa y continúa. Corregir esto suele requerir un rediseño, algo que el agente no logra hacer.

• Bucles de regresión: El agente corrige un error pero rompe otro. Mientras corrige el segundo error, deshace la primera corrección. Entra en un bucle donde oscila entre dos estados defectuosos. Carece de memoria sobre lo que falló anteriormente.

• Arquitectura deficiente: El agente escribe código que lucha contra el framework. Ignora la estructura de tu aplicación. Funciona para un script desechable, pero falla en una base de código real.

Estos no son problemas del lenguaje. El modelo conoce Swift. Lo que le falta es ver lo que el compilador no puede ver. No sabe si el resultado coincide con tu intención o si la estructura es profesional.

Esto traslada el coste de los tokens a la atención. Un agente que requiere que lo vigiles cada pocos turnos no te ha ahorrado trabajo. Ha convertido la escritura en supervisión.

Estoy mejorando mis resultados cambiando el bucle que rodea al modelo. Me concentro en lo que el agente comprueba y recuerda.

¿Coincide esto con tu experiencia? Cuando ejecutas agentes en plataformas de Apple, ¿dónde falla? ¿Son desajustes de intención, carreras en tiempo de ejecución o algo más?

Source: https://dev.to/jbrackin/coding-agents-are-good-at-writing-swift-theyre-bad-at-finishing-it-md3

Optional learning community: https://t.me/GyaanSetuAi