𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁'𝘀 𝗧𝗼𝗸𝗲𝗻 𝗕𝗶𝗹𝗹 𝗯𝘆 𝟲𝟮% 𝗶𝗻 𝗢𝗻𝗲 𝗪𝗲𝗲𝗸𝗲𝗻𝗱

Translated for your language. Leggi l'originale.

AI-assisted draft.

ieri2min di lettura

Ho ridotto il costo dei token del mio agente AI del 62% in un solo weekend

Il mio agente AI costava 5,40$ per task. Ho ridotto quel costo a 2,05$ per task in un solo weekend. Ho ottenuto questo calo del 62% senza perdere qualità.

Ecco come ci sono riuscito.

Il problema: Il mio agente esegue un ciclo di ricerca. Cerca sul web, effettua lo scraping delle pagine e scrive riassunti. Consumava token in tre modi:

Context stuffing (riempimento del contesto): inviavo intere pagine da 50.000 caratteri al modello. Ne servivano solo 2.000. Pagavo per l'intero pagliaio pur di trovare un ago.
Prompt prolissi: i miei system prompt ripetevano le stesse istruzioni tre volte. Pagavo affinché il modello rileggesse le mie stesse parole ogni volta.
Uso eccessivo di modelli costosi: utilizzavo modelli di ragionamento di alto livello per compiti semplici come riassumere un singolo paragrafo.

Le soluzioni:

Filtra prima di inviare Invece di inviare intere pagine, ora divido il testo in blocchi (chunk). Trovo prima le parti rilevanti e poi invio al modello solo quelle parti. Questo ha ridotto i token di input da 12.500 a 3.200 per pagina.
Accorcia il system prompt Ho eliminato le istruzioni ridondanti. Ho rimosso le descrizioni degli strumenti che il modello conosce già. Ho smesso di usare formule standard come "pensa passo dopo passo" perché i modelli moderni lo fanno di default.
Routing dei modelli a livelli Ho smesso di usare un unico modello per tutto. Ho suddiviso i compiti in tre livelli:

Estrazione: Usa un modello piccolo ed economico.
Sintesi: Usa un modello di ragionamento di alto livello.
Formattazione: Usa un modello piccolo ed economico.

I risultati di un test su 50 task:

Costo per task: da 5,40$ a 2,05$
Latenza: da 41s a 28s
Copertura delle citazioni: dal 67% all'89%

L'agente non è più intelligente. La pipeline è solo più efficiente.

Tre lezioni per i tuoi agenti in produzione:

Imposta un budget di token rigido. Interrompi il task se supera il limite.
Sfrutta la cache per i risultati. Non effettuare lo scraping della stessa URL due volte.
Logga tutto. Devi sapere esattamente quale passaggio costa di più.

Smetti di ricorrere a modelli più grandi quando la qualità cala. Inizia a usare modelli più piccoli con un contesto più ristretto.

Fonte: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

Community di apprendimento opzionale: https://t.me/GyaanSetuAi

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁'𝘀 𝗧𝗼𝗸𝗲𝗻 𝗕𝗶𝗹𝗹 𝗯𝘆 𝟲𝟮% 𝗶𝗻 𝗢𝗻𝗲 𝗪𝗲𝗲𝗸𝗲𝗻𝗱

Continua a leggere

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗣𝗜 𝗖𝗼𝘀𝘁𝘀 𝗕𝘆 𝟳𝟬%

𝗧𝗵𝗲 𝗠𝗖𝗣 𝗖𝗼𝗻𝘁𝗲𝘅𝘁 𝗧𝗮𝘅

𝗛𝗼𝘄 𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗠𝘆 𝗔𝗜 𝗙𝗲𝗮𝘁𝘂𝗿𝗲 𝗳𝗿𝗼𝗺 𝗗𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝘆 𝗪𝗮𝗹𝗹𝗲𝘁

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

𝟳 𝗪𝗮𝘆𝘀 𝘁𝗼 𝗥𝗲𝗱𝘂𝗰𝗲 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗕𝗶𝗹𝗹