Ho ridotto il costo dei token del mio agente AI del 62% in un solo weekend

Il mio agente AI costava 5,40$ per task. Ho ridotto quel costo a 2,05$ per task in un solo weekend. Ho ottenuto questo calo del 62% senza perdere qualità.

Ecco come ci sono riuscito.

Il problema: Il mio agente esegue un ciclo di ricerca. Cerca sul web, effettua lo scraping delle pagine e scrive riassunti. Consumava token in tre modi:

  • Context stuffing (riempimento del contesto): inviavo intere pagine da 50.000 caratteri al modello. Ne servivano solo 2.000. Pagavo per l'intero pagliaio pur di trovare un ago.
  • Prompt prolissi: i miei system prompt ripetevano le stesse istruzioni tre volte. Pagavo affinché il modello rileggesse le mie stesse parole ogni volta.
  • Uso eccessivo di modelli costosi: utilizzavo modelli di ragionamento di alto livello per compiti semplici come riassumere un singolo paragrafo.

Le soluzioni:

  1. Filtra prima di inviare Invece di inviare intere pagine, ora divido il testo in blocchi (chunk). Trovo prima le parti rilevanti e poi invio al modello solo quelle parti. Questo ha ridotto i token di input da 12.500 a 3.200 per pagina.

  2. Accorcia il system prompt Ho eliminato le istruzioni ridondanti. Ho rimosso le descrizioni degli strumenti che il modello conosce già. Ho smesso di usare formule standard come "pensa passo dopo passo" perché i modelli moderni lo fanno di default.

  3. Routing dei modelli a livelli Ho smesso di usare un unico modello per tutto. Ho suddiviso i compiti in tre livelli:

  • Estrazione: Usa un modello piccolo ed economico.
  • Sintesi: Usa un modello di ragionamento di alto livello.
  • Formattazione: Usa un modello piccolo ed economico.

I risultati di un test su 50 task:

  • Costo per task: da 5,40$ a 2,05$
  • Latenza: da 41s a 28s
  • Copertura delle citazioni: dal 67% all'89%

L'agente non è più intelligente. La pipeline è solo più efficiente.

Tre lezioni per i tuoi agenti in produzione:

  • Imposta un budget di token rigido. Interrompi il task se supera il limite.
  • Sfrutta la cache per i risultati. Non effettuare lo scraping della stessa URL due volte.
  • Logga tutto. Devi sapere esattamente quale passaggio costa di più.

Smetti di ricorrere a modelli più grandi quando la qualità cala. Inizia a usare modelli più piccoli con un contesto più ristretto.

Fonte: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

Community di apprendimento opzionale: https://t.me/GyaanSetuAi