Agentes de Codificação Escrevem Swift Bem, Mas Não Conseguem Finalizá-lo

Passei meses testando agentes de codificação de IA em tarefas reais de Swift e Xcode. Não usei demonstrações simples. Dei a eles tarefas reais com alvos de compilação e testes.

O primeiro rascunho geralmente é bom. Um modelo capaz escreve um código que parece correto. Os tipos coincidem. As views fazem sentido. Se escrever Swift fosse o único problema, essas ferramentas estariam prontas.

O problema real acontece após o primeiro rascunho. É a lacuna entre o código que parece terminado e o código que está realmente correto.

Ferramentas modernas como Claude Code ou Codex lidam bem com erros de compilação. Elas não entregam um código que falha ao compilar. As falhas reais são aquelas que o compilador não consegue ver.

Essas falhas desperdiçam meu tempo:

• Incompatibilidade de intenção: O código compila e os testes passam. No entanto, o comportamento está errado. O agente segue a "luz verde" de um teste aprovado em vez do seu objetivo real. Ele não tem como verificar a intenção.

• Condições de corrida de concorrência: O código compila sem erros, mas possui data races. Estas só aparecem durante o tempo de execução. O agente vê uma compilação bem-sucedida e segue em frente. Corrigir isso geralmente exige um redesenho, algo que o agente não consegue fazer.

• Loops de regressão: O agente corrige um bug, mas quebra outro. Ao corrigir o segundo bug, ele desfaz a primeira correção. Ele entra em um loop onde oscila entre dois estados quebrados. Ele carece de memória sobre o que falhou anteriormente.

• Arquitetura ruim: O agente escreve código que luta contra o framework. Ele ignora a estrutura do seu aplicativo. Funciona para um script descartável, mas falha em uma base de código real.

Estes não são problemas de linguagem. O modelo conhece Swift. Ele deixa passar o que o compilador não consegue ver. Ele não sabe se o resultado corresponde à sua intenção ou se a estrutura é profissional.

Isso desloca o custo de tokens para atenção. Um agente que exige que você o observe a cada poucos turnos não economizou seu trabalho. Ele converteu a escrita em supervisão.

Estou melhorando meus resultados mudando o loop em torno do modelo. Eu foco no que o agente verifica e lembra.

Isso condiz com a sua experiência? Quando você executa agentes em plataformas Apple, onde ele falha? São incompatibilidades de intenção, condições de corrida em tempo de execução ou algo mais?

Fonte: https://dev.to/jbrackin/coding-agents-are-good-at-writing-swift-theyre-bad-at-finishing-it-md3

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi