La cascata delle confabulazioni

Il mio agente AI è rimasto bloccato in un loop.

Scriveva una query SQL con un nome di colonna inesistente. Il database restituiva un errore. Il messaggio di errore includeva l'elenco reale delle colonne. L'agente leggeva la correzione. Poi, scriveva di nuovo esattamente lo stesso nome di colonna errato.

Chiamo questo fenomeno la cascata delle confabulazioni.

Non è un problema del modello. È un problema di progettazione degli strumenti.

Ecco come funziona il loop:

  • L'agente genera una query basandosi sul suo addestramento.
  • La query fallisce.
  • Il messaggio di errore fornisce la verità.
  • L'agente vede la verità, ma si affida invece al suo addestramento interno.
  • L'agente ripete l'errore.

L'agente si trova di fronte a due segnali. Un segnale è il messaggio di errore. L'altro segnale è l'addestramento del modello. L'addestramento è spesso più forte. Il messaggio di errore appare una sola volta. L'addestramento appare con ogni singola parola che il modello scrive.

Ho provato a risolvere il problema con il prompt engineering. Ho detto al modello di prestare attenzione agli errori. Non ha funzionato.

Il vero problema è che il mio agente poteva imparare solo fallendo. Non aveva modo di controllare la struttura della tabella prima di agire. Doveva tirare a indovinare.

Se dai a un essere umano un'API, gli dai la documentazione. Non lo costringi a inviare richieste errate finché i messaggi di errore non gli insegnano lo schema.

Ho risolto il problema costruendo uno strumento proattivo. Invece di aspettare un errore, ora l'agente chiama prima uno strumento describe_table.

Il nuovo flusso di lavoro:

  • L'agente vuole interrogare una tabella.
  • L'agente chiama describe_table per vedere le colonne reali.
  • L'agente ottiene i nomi e i tipi corretti.
  • L'agente scrive una query corretta al primo tentativo.

Il loop si è interrotto. Il modello non è diventato più intelligente. L'agente ha semplicemente smesso di tirare a indovinare.

Se i tuoi agenti utilizzano database o API, chiediti questo: possono verificare la struttura prima di agire? O imparano solo fallendo?

Gli indizi di errore reattivi sono utili. Non sono sufficienti. Un agente che impara solo attraverso il fallimento è sempre a un passo da un'allucinazione.

Costruisci strumenti che permettano agli agenti di porre domande prima di commettere errori.

Fonte: https://dev.to/niclydon/the-confabulation-cascade-when-your-agent-learns-nothing-from-its-own-mistakes-m08

Community di apprendimento opzionale: https://t.me/GyaanSetuAi