Deja de volcar la memoria del agente en el prompt

La mayoría de los desarrolladores construyen bucles de agentes añadiendo todo al siguiente prompt.

Añades observaciones previas, llamadas a herramientas y trazas de razonamiento. Sigues añadiendo datos hasta que el prompt se convierte en un cajón de sastre. El modelo ve más, pero pierdes el control. Ya no sabes qué fragmento de memoria causó una decisión específica.

Un nuevo artículo llamado AgenticSTS sugiere un camino diferente. Trata la memoria como una interfaz en lugar de una competencia por tener la ventana de contexto más grande.

El artículo utiliza el juego Slay the Spire 2 como banco de pruebas. Este entorno requiere cientos de decisiones estratégicas. No es un simple chatbot.

La idea central es esta: la memoria es un contrato sobre lo que una decisión futura tiene permitido ver.

En lugar de transcripciones en bruto, los autores componen prompts nuevos utilizando cinco capas específicas:

  • Instrucciones de protocolo fijas
  • Esquemas de estado actual y de acción
  • Reglas de juego recuperadas
  • Resúmenes de ejecuciones previas
  • Habilidades estratégicas activadas

Esta estructura lo cambia todo. Puedes inspeccionar, congelar o desactivar cada capa. Conviertes la memoria de un montón de datos en evidencia seleccionada.

Muchos fallos de agentes en producción no son fallos del modelo. Son fallos de contexto. El agente mezcla el estado antiguo con el nuevo o arrastra reflexiones desactualizadas. Si tu única política es añadir más texto, la depuración se siente como arqueología.

Una interfaz de memoria tipada te da algo con qué comparar.

Para agentes de larga duración, una ventana de contexto enorme es una trampa. Se convierte en una mezcla de hechos, hechos desactualizados e intentos fallidos. Cuanto más grande es la ventana, más fácil es confundir el sedimento con la memoria.

Para construir mejores agentes, sigue estos patrones:

  • Separa las instrucciones estables del estado actual
  • Mantén las reglas en una capa de recuperación
  • Almacena la experiencia como registros explícitos, no como residuos de chat
  • Convierte las correcciones repetidas en habilidades activadas
  • Haz que cada capa de memoria sea eliminable para realizar pruebas

Si no puedes desactivar una capa de memoria, no sabes si realmente ayuda. Solo sabes que todo el montón funciona a veces.

Deja de tratar la memoria del agente como una capa de "vibes". Muévete hacia un sistema donde sepas exactamente qué entra en la siguiente decisión, de dónde viene y cómo desactivarlo.

Si tu agente no puede explicar qué se le permitió recordar, no tiene memoria. Solo tiene un prompt con un sótano.

Fuente: https://dev.to/komo/stop-dumping-agent-memory-into-the-prompt-58ka

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi