Probably haalt $9 miljoen op om LLM-hallucinaties te bestrijden met precisietechniek

Naarmate Large Language Models (LLM's) steeds meer worden geïntegreerd in professionele workflows, staat de sector voor een hardnekkige hindernis: de neiging van zelfs de meest geavanceerde modellen om te hallucineren. Startup Probably pakt deze uitdaging rechtstreeks aan door 9 miljoen dollar aan seed-financiering binnen te halen onder leiding van Andreessen Horowitz, om een striktere, deterministische aanpak voor AI-betrouwbaarheid te ontwikkelen.

Naar 99,99% nauwkeurigheid

De kernmissie van Probably, onder leiding van oprichter Peter Elias, is het overbruggen van de kloof tussen de probabilistische aard van LLM's en de standaard van 99,99% nauwkeurigheid die van deterministische systemen wordt verwacht. In omgevingen met een hoog risico kan één enkele feitelijke fout een AI-tool nutteloos maken. Om dit op te lossen, beweegt Probably zich weg van het idee dat nauwkeurigheid puur een functie is van de modelgrootte, en richt het zich in plaats daarvan op "harness engineering".

Het vlaggenschip van het bedrijf is een data science-tool die ontworpen is om inzichten te extraheren uit complexe datasets. In tegenstelling tot standaard chatbots die conversationele antwoorden geven, biedt de tool van Probably elk antwoord met een specifieke citatie en een transparant auditspoor, waardoor gebruikers de logica achter elke output kunnen verifiëren.

De "Data Science Mech Suit"-architectuur

In plaats van uitsluitend te vertrouwen op het redeneervermogen van een enorm model, maakt Probably gebruik van wat Elias een "data science mech suit" noemt. Deze architectuur functioneert als een geavanceerd harness-systeem waarbij de initiële output van de LLM onmiddellijk wordt gecontroleerd door een deterministische validator.

Als de LLM een resultaat produceert dat niet perfect overeenkomt met de onderliggende dataset, wijst de validator dit af. Cruciaal is dat de LLM specifiek tegen deze validator wordt getraind, wat een closed-loop-systeem creëert dat is geoptimaliseerd voor snelheid en feitelijke integriteit. Deze aanpak werkt volgens een fundamenteel principe: door de context te verfijnen en ambiguïteit te verminderen via engineering, kun je het model dwingen om "het juiste te doen" zonder dat daar enorme rekenkracht (brute force) voor nodig is.

Efficiëntie door kleinere, lokale modellen

Een van de belangrijkste technische implicaties van de aanpak van Probably is de mogelijkheid om kleinere, efficiëntere modellen te gebruiken. Omdat de "mech suit" het zware werk van validatie en contextverfijning op zich neemt, kan het systeem werken met modellen die "vier klassen zwakker zijn dan frontier-modellen".

Deze verschuiving biedt enorme economische en operationele voordelen:

Het uitdagen van het prikkelmodel van grote AI-labs

Elias wijst op een structurele mismatch in het huidige AI-landschap: grote AI-labs worden gestimuleerd om massieve, algemene modellen te bouwen die frequente correcties van gebruikers vereisen. Omdat deze labs vaak rekenen op basis van tokengebruik, kunnen meer fouten en meer vervolgvragen de omzet zelfs verhogen. Door te focussen op precisie en het "verminderen van ambiguïteit" door middel van engineering in plaats van schaal, creëert Probably een niche voor missiekritische AI-toepassingen waar betrouwbaarheid de enige maatstaf is die telt.

Kernpunten