Plan de rollback para agentes de IA: Deshaga acciones erróneas antes de que los usuarios pierdan la confianza
Un agente de IA fiable no necesita ser perfecto. Necesita saber cómo detenerse, explicar su error y recuperarse.
Si su agente actualiza el campo incorrecto de un CRM o envía un pago duplicado, un simple reintento no reparará el daño. Necesita un plan de rollback antes de enfrentarse a un incidente real.
A medida que los agentes pasan del chat al trabajo real, ahora mutan el estado. Esto convierte al rollback en una característica del producto, no solo en una tarea de backend.
Modos de fallo comunes:
- El agente utiliza el ID de registro incorrecto.
- Un reintento repite una acción dos veces.
- Un cambio de modelo altera el funcionamiento de una herramienta.
- Un flujo de trabajo se reanuda con memoria antigua.
- Una secuencia parcial deja los datos inconsistentes.
Cómo construir una capa de recuperación:
Utilice un registro de acciones (Action Ledger) No dependa de los logs. Cree un registro que guarde cada cambio de estado. Cada llamada a una herramienta debe crear una entrada antes y después de la ejecución. Esta es su fuente de verdad para la recuperación.
Clasifique sus acciones No todas las acciones son iguales.
- Solo lectura (Read-only): No requiere rollback.
- Actualizaciones internas: Restaure el valor anterior a partir de una instantánea (snapshot).
- Externas reversibles: Elimine el evento o actualice el estado.
- Externas irreversibles: Utilice una compensación en lugar de un "deshacer" real. En el caso de correos electrónicos o pagos, no se pueden "desenviar". Debe enviar una corrección o un reembolso.
Aplique la idempotencia El modelo no garantiza la idempotencia. Su entorno de ejecución de herramientas (tool runtime) sí debe hacerlo. Utilice claves de idempotencia para asegurar que, si un agente reintenta una tarea, no cree efectos secundarios duplicados.
Utilice el patrón Saga (Saga Pattern) Para flujos de trabajo largos, cada acción hacia adelante necesita una acción compensatoria.
- ¿Crear una tarea? La compensación es eliminarla o cancelarla.
- ¿Actualizar un campo? La compensación es restaurar el valor antiguo.
- ¿Enviar un correo electrónico? La compensación es enviar una corrección.
Implemente puntos de control (Checkpoints) Deje de pedirle al modelo que "averigüe dónde estábamos" tras un fallo. Utilice checkpoints para almacenar el estado actual, las acciones completadas y las tareas pendientes. El sistema debe cargar el checkpoint para reanudar el trabajo.
Construya una cola de recuperación Cuando falle un paso de verificación, mueva la tarea a una cola de recuperación. Esto le permite reanudar, compensar o cerrar la tarea. Para errores de alto riesgo, solicite siempre la aprobación de un humano.
La confianza se construye mediante una recuperación visible. Cuando un agente cometa un error, no utilice un lenguaje vago. Dígale al usuario exactamente qué cambió, por qué sucedió y cómo lo solucionó.
Construya su plan de rollback antes de que ocurra el primer incidente.
Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi
