Probabile raccolta di 9 milioni di dollari per combattere le allucinazioni dei LLM tramite ingegneria di precisione

📅3 hours ago⏱3 min read

In this article

Probably raccoglie 9 milioni di dollari per combattere le allucinazioni dei LLM con l'ingegneria di precisione

Man mano che i modelli linguistici di grandi dimensioni (LLM) vengono integrati sempre più nei flussi di lavoro professionali, il settore si trova ad affrontare un ostacolo persistente: la tendenza anche dei modelli più avanzati ad allucinare. La startup Probably sta affrontando questa sfida direttamente, assicurandosi 9 milioni di dollari in finanziamenti seed guidati da Andreessen Horowitz per costruire un approccio più rigoroso e deterministico all'affidabilità dell'IA.

Verso un'accuratezza del 99,99%

La missione principale di Probably, guidata dal fondatore Peter Elias, è colmare il divario tra la natura probabilistica degli LLM e lo standard di accuratezza del 99,99% richiesto dai sistemi deterministici. In ambienti ad alto rischio, un singolo errore fattuale può rendere inutile uno strumento di IA. Per risolvere questo problema, Probably si sta allontanando dall'idea che l'accuratezza sia puramente una funzione della dimensione del modello, concentrandosi invece sulla "harness engineering".

Il prodotto di punta dell'azienda è uno strumento di data science progettato per estrarre informazioni da dataset complessi. A differenza dei chatbot standard che forniscono risposte conversazionali, lo strumento di Probably fornisce ogni risposta con una citazione specifica e un audit trail trasparente, consentendo agli utenti di verificare la logica alla base di ogni output.

L'architettura "Data Science Mech Suit"

Invece di affidarsi esclusivamente alle capacità di ragionamento di un modello massiccio, Probably utilizza quello che Elias chiama un "data science mech suit". Questa architettura funziona come un elaborato sistema di imbracatura in cui l'output iniziale dell'LLM viene immediatamente esaminato da un validatore deterministico.

Se l'LLM produce un risultato che non si allinea perfettamente con il dataset sottostante, il validatore lo rifiuta. Fondamentalmente, l'LLM viene addestrato specificamente contro questo validatore, creando un sistema a ciclo chiuso ottimizzato per velocità e integrità fattuale. Questo approccio si basa su un principio fondamentale: perfezionando il contesto e riducendo l'ambiguità attraverso l'ingegneria, è possibile costringere il modello a "fare la cosa giusta" senza richiedere una massiccia forza bruta computazionale.

Efficienza attraverso modelli più piccoli e locali

Una delle implicazioni tecniche più significative dell'approccio di Probably è la possibilità di utilizzare modelli più piccoli ed efficienti. Poiché il "mech suit" si occupa del lavoro pesante di validazione e perfezionamento del contesto, il sistema può operare su modelli che sono "quattro classi più deboli dei modelli di frontiera".

Questo cambiamento offre enormi vantaggi economici e operativi:

Riduzione dei costi dei token: I modelli più piccoli riducono significativamente il costo per query, un fattore vitale mentre le aziende cercano di ottimizzare i budget per l'IA.
Esecuzione locale: Questi modelli più leggeri possono essere eseguiti su hardware locale, come computer desktop, invece di richiedere costose connessioni a data center ad alta latenza.
Scalabilità: Il motore è progettato per essere estendibile oltre la data science, raggiungendo settori sensibili alla precisione come la contabilità e i servizi medici.

Sfida al modello di incentivi dei grandi laboratori di IA

Elias evidenzia un disallineamento strutturale nell'attuale panorama dell'IA: i principali laboratori di IA sono incentivati a costruire modelli massicci e generalisti che richiedono frequenti correzioni da parte dell'utente. Poiché questi laboratori spesso fatturano in base all'utilizzo dei token, un maggior numero di errori e di query di follow-up può effettivamente aumentare i ricavi. Concentrandosi sulla precisione e sulla "riduzione dell'ambiguità" attraverso l'ingegneria piuttosto che sulla scala, Probably si sta creando una nicchia per applicazioni di IA mission-critical, dove l'affidabilità è l'unica metrica che conta.

Punti chiave

Validazione deterministica: Probably utilizza un'architettura "mech suit" per verificare gli output degli LLM rispetto a un validatore deterministico, puntando a una precisione del 99,99%.
Ingegneria efficiente in termini di costi: Riducendo l'ambiguità attraverso una migliore ingegneria del

Probabile raccolta di 9 milioni di dollari per combattere le allucinazioni dei LLM tramite ingegneria di precisione

Probably raccoglie 9 milioni di dollari per combattere le allucinazioni dei LLM con l'ingegneria di precisione

Verso un'accuratezza del 99,99%

L'architettura "Data Science Mech Suit"

Efficienza attraverso modelli più piccoli e locali

Sfida al modello di incentivi dei grandi laboratori di IA

Punti chiave

Continue reading

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

AI Red Teaming: Proteggere i Large Language Models dai rischi avversari

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

Verso un serving efficiente di LLM