Il crollo dei prezzi 10x è una scommessa sull'architettura
Gli ingegneri passano ore a riscrivere i prompt per risparmiare pochi token. Questo sforzo è spesso sprecato.
I token non sono gratuiti, ma il costo dell'IA sta scendendo troppo velocemente. Il costo per un determinato livello di prestazioni dell'IA diminuisce di circa 10 volte ogni anno. Questo fenomeno è chiamato LLMflation.
I dati dimostrano che questa tendenza è reale:
- La qualità di livello GPT-3 costava 60 $ per milione di token nel 2021.
- Ora costa circa 0,06 $ usando Llama 3.2 3B.
- Si tratta di un calo di 1.000 volte in tre anni.
- I costi per la qualità di GPT-3.5 sono diminuiti di 280 volte in soli 18 mesi.
I modelli frontier rimangono costosi. Ma i modelli che utilizzi per i compiti standard stanno subendo un crollo costante. Se ottimizzi in base ai prezzi di oggi, stai ottimizzando per un numero che scomparirà tra pochi mesi.
Non concentrarti sui trucchi per i prompt. Concentrati sull'architettura.
Segui queste tre regole per vincere:
• Tratta il modello come un componente. Usa un'unica interfaccia per input e output. Non inserire modelli specifici nel codice (hard-code) della tua app. Questo ti permetterà di scambiare i modelli tramite una semplice modifica della configurazione.
• Costruisci prima un sistema di valutazione (evaluation harness). Hai bisogno di un set di test per dimostrare se un nuovo modello, più economico, funziona bene quanto quello vecchio. Senza test, rimarrai bloccato su modelli costosi per il timore di rompere qualcosa.
• Investi in ciò che non diventa più economico. La qualità dei tuoi dati, i tuoi sistemi di recupero (retrieval), i tuoi guardrail e la tua esperienza utente non subiscono un calo di prezzo di 10 volte l'anno. Solo il modello lo fa.
Smetti di fare fine-tuning per la capacità pura. Il fine-tuning è una scommessa contro la curva. Blocchi i tuoi dati e la tua infrastruttura su un modello specifico. Quando arriva un nuovo modello base, il tuo modello sottoposto a fine-tuning diventa un relitto costoso. Effettua il fine-tuning solo per ciò che rimane invariato, come il tono specifico del tuo brand o formati di dati unici.
La strategia vincente è costruire un sistema che renda lo scambio di modelli un'operazione banale. Smetti di contare i token. Progetta il tuo prodotto per cavalcare la curva del calo dei prezzi.
Community di apprendimento opzionale: https://t.me/GyaanSetuAi
