Il tuo conto dell'IA non è un problema di modello. È un problema di architettura.
Se i costi dei tuoi LLM stanno aumentando, probabilmente vorrai passare a un modello più economico. Potresti passare da GPT-4 a GPT-4-mini. Questo aiuta un po', ma raramente risolve il vero problema.
Il vero problema è il tuo workflow. La maggior parte delle persone instrada ogni passaggio attraverso un LLM. Usano il ragionamento linguistico per compiti che non ne hanno bisogno.
Ogni workflow di IA ha quattro parti:
• Trigger: Avvia il lavoro. Il costo è vicino allo zero. • ML Deterministico: Classifica o assegna un punteggio ai dati. Questo è economico. • LLM: Legge, scrive e ragiona. Questo è costoso. • Tool/API: Recupera o scrive dati. Questo è economico.
Il divario tra il ML deterministico e un LLM è enorme. Un LLM può costare da 100 a 1000 volte di più di un semplice classificatore. Se non scegli lo strumento giusto per ogni passaggio, finirai per usare quello costoso per impostazione predefinita.
Prendiamo come esempio un sistema di ticket di assistenza.
Una cattiva implementazione invia l'intero ticket a un LLM. Chiede all'LLM di classificare l'intento, instradare il ticket, bozzare una risposta e aggiornare il CRM. Questo è eccessivo. La classificazione non richiede un LLM; richiede un modello semplice per mappare il testo su una categoria.
Un'implementazione migliore è la seguente:
- Trigger: Arriva un ticket.
- ML Deterministico: Un modello veloce ed economico decide se il ticket riguarda la fatturazione, problemi tecnici o spam.
- LLM: Utilizzato solo per bozzare una risposta per i ticket validi.
- Tool/API: Il sistema aggiorna il CRM.
In questa versione, i ticket di spam non raggiungono mai l'LLM. Smetti di pagare la "tassa LLM" su compiti inutili.
Se instradi correttamente la tua architettura, elimini le chiamate più costose prima ancora di cambiare modelli.
Segui questi passaggi per ridurre i tuoi costi:
- Mappa il tuo workflow. Identifica quali passaggi richiedono un vero ragionamento e quali sono solo classificazione o estrazione.
- Sposta i passaggi deterministici fuori dal prompt. Usa metodi più veloci ed economici per l'instradamento e il punteggio.
- Limita l'accesso all'LLM. Non generare risposte per compiti che non ne hanno bisogno.
- Valuta la dimensione del modello solo alla fine. Scegli un modello più piccolo per la fase di generazione solo quando la tua architettura sarà snella.
Smetti di discutere su quale modello sia il più economico per token. Inizia a costruire architetture che utilizzino il motore costoso solo quando necessario.
Fonte: https://dev.to/bakshiyogesh/your-ai-bill-isnt-a-model-problem-its-an-architecture-problem-1ole
Community di apprendimento opzionale: https://t.me/GyaanSetuAi
