Probably raccoglie 9 milioni di dollari per combattere le allucinazioni dei LLM con l'ingegneria di precisione

Man mano che i modelli linguistici di grandi dimensioni (LLM) vengono integrati sempre più nei flussi di lavoro professionali, il settore si trova ad affrontare un ostacolo persistente: la tendenza anche dei modelli più avanzati ad allucinare. La startup Probably sta affrontando questa sfida direttamente, assicurandosi 9 milioni di dollari in finanziamenti seed guidati da Andreessen Horowitz per costruire un approccio più rigoroso e deterministico all'affidabilità dell'IA.

Verso un'accuratezza del 99,99%

La missione principale di Probably, guidata dal fondatore Peter Elias, è colmare il divario tra la natura probabilistica degli LLM e lo standard di accuratezza del 99,99% richiesto dai sistemi deterministici. In ambienti ad alto rischio, un singolo errore fattuale può rendere inutile uno strumento di IA. Per risolvere questo problema, Probably si sta allontanando dall'idea che l'accuratezza sia puramente una funzione della dimensione del modello, concentrandosi invece sulla "harness engineering".

Il prodotto di punta dell'azienda è uno strumento di data science progettato per estrarre informazioni da dataset complessi. A differenza dei chatbot standard che forniscono risposte conversazionali, lo strumento di Probably fornisce ogni risposta con una citazione specifica e un audit trail trasparente, consentendo agli utenti di verificare la logica alla base di ogni output.

L'architettura "Data Science Mech Suit"

Invece di affidarsi esclusivamente alle capacità di ragionamento di un modello massiccio, Probably utilizza quello che Elias chiama un "data science mech suit". Questa architettura funziona come un elaborato sistema di imbracatura in cui l'output iniziale dell'LLM viene immediatamente esaminato da un validatore deterministico.

Se l'LLM produce un risultato che non si allinea perfettamente con il dataset sottostante, il validatore lo rifiuta. Fondamentalmente, l'LLM viene addestrato specificamente contro questo validatore, creando un sistema a ciclo chiuso ottimizzato per velocità e integrità fattuale. Questo approccio si basa su un principio fondamentale: perfezionando il contesto e riducendo l'ambiguità attraverso l'ingegneria, è possibile costringere il modello a "fare la cosa giusta" senza richiedere una massiccia forza bruta computazionale.

Efficienza attraverso modelli più piccoli e locali

Una delle implicazioni tecniche più significative dell'approccio di Probably è la possibilità di utilizzare modelli più piccoli ed efficienti. Poiché il "mech suit" si occupa del lavoro pesante di validazione e perfezionamento del contesto, il sistema può operare su modelli che sono "quattro classi più deboli dei modelli di frontiera".

Questo cambiamento offre enormi vantaggi economici e operativi:

Sfida al modello di incentivi dei grandi laboratori di IA

Elias evidenzia un disallineamento strutturale nell'attuale panorama dell'IA: i principali laboratori di IA sono incentivati a costruire modelli massicci e generalisti che richiedono frequenti correzioni da parte dell'utente. Poiché questi laboratori spesso fatturano in base all'utilizzo dei token, un maggior numero di errori e di query di follow-up può effettivamente aumentare i ricavi. Concentrandosi sulla precisione e sulla "riduzione dell'ambiguità" attraverso l'ingegneria piuttosto che sulla scala, Probably si sta creando una nicchia per applicazioni di IA mission-critical, dove l'affidabilità è l'unica metrica che conta.

Punti chiave