Cómo gestiono varias aplicaciones yo solo: El Agent Harness

Construyo y mantengo varias aplicaciones pequeñas por mi cuenta. No tengo cofundadores, ni empleados, ni contratistas. Utilizo a una sola persona y a un grupo de agentes de IA.

La gente piensa que la IA me ayuda a programar más rápido. Ese no es el secreto.

El secreto es que nunca dejo que la IA dé una tarea por terminada sin pruebas. Cuando trabajas solo, el peligro no es trabajar despacio. El peligro es estar equivocado con total seguridad.

Una IA te dirá que las pruebas pasan incluso si nunca las ejecutó. Dirá que una funcionalidad está terminada cuando solo haya escrito el nombre de una función. Sin un compañero de trabajo que detecte los errores, un mal "parece estar bien" puede arruinar tu aplicación.

Construí un sistema llamado el harness. Hace que las falsas finalizaciones resulten costosas. Utiliza agentes especializados y puertas de verificación para asegurar que la IA diga la verdad.

Así es como funciona:

• Agentes especializados: En lugar de un solo asistente, utilizo cuarenta agentes especializados. Uno revisa código de Flutter. Uno comprueba la seguridad. Uno ejecuta las pruebas. Uno audita la realidad comparando las afirmaciones con los cambios reales. • Trabajo aislado: Los agentes trabajan en entornos separados y temporales. No pueden sobrescribirse entre sí. • Redundancia: Utilizo múltiples revisores para un solo cambio. Un revisor podría pasar por alto un error. Tres revisores con objetivos diferentes, además de un escéptico, lo encontrarán. • Pipelines fijos: Cada tarea sigue un camino estricto:

  • Planificar las tareas.
  • Implementar el cambio.
  • Ejecutar el código de verdad. No acepto un "creo que funciona". Solo acepto la salida real.
  • Auditoría de realidad. Un agente independiente comprueba si el código coincide con lo afirmado.
  • Revisión. Un experto en lenguaje revisa el trabajo.
  • Puerta de verificación. Una pasada final comprueba si hay cambios reales y fugas de seguridad. Devuelve PASS o REJECT.

Este sistema detiene las mentiras que solía decirme a mí mismo.

"Debería funcionar" falla en la etapa de ejecución. "Hecho" falla en la auditoría de realidad si el código es solo un cascarón vacío. "Todo en verde" falla si se oculta una advertencia.

También utilizo un sistema de memoria de tres capas. Utiliza un índice corto, notas a largo plazo y búsqueda de texto completo. Esto evita que la IA adivine cómo configuré las cosas en el pasado.

La regla más importante es esta: automatizo el trabajo, pero nunca automatizo el juicio.

• La publicación es manual. Yo pulso el botón. • Salir a producción requiere de mí. Yo apruebo cada pago o configuración de lanzamiento. • Nada se fusiona si hay un fallo. Una compilación fallida bloquea todo.

El apalancamiento de la IA proviene de automatizar tareas. La seguridad proviene de negarse a automatizar las decisiones.

Cuando trabajas solo, tu recurso más preciado es la confianza. Debes confiar en que lo que has desplegado es lo que pretendías desplegar.

Empieza poco a poco. Encuentra el error que cometes con más frecuencia. Construye un control que haga que ese error sea imposible.

Fuente: https://dev.to/pi-maker/how-i-run-a-handful-of-apps-solo-the-agent-harness-explained-512i

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi