Probably haalt $9 miljoen op om LLM-hallucinaties te bestrijden met precisietechniek
Naarmate Large Language Models (LLM's) steeds meer worden geïntegreerd in professionele workflows, staat de sector voor een hardnekkige hindernis: de neiging van zelfs de meest geavanceerde modellen om te hallucineren. Startup Probably pakt deze uitdaging rechtstreeks aan door 9 miljoen dollar aan seed-financiering binnen te halen onder leiding van Andreessen Horowitz, om een striktere, deterministische aanpak voor AI-betrouwbaarheid te ontwikkelen.
Naar 99,99% nauwkeurigheid
De kernmissie van Probably, onder leiding van oprichter Peter Elias, is het overbruggen van de kloof tussen de probabilistische aard van LLM's en de standaard van 99,99% nauwkeurigheid die van deterministische systemen wordt verwacht. In omgevingen met een hoog risico kan één enkele feitelijke fout een AI-tool nutteloos maken. Om dit op te lossen, beweegt Probably zich weg van het idee dat nauwkeurigheid puur een functie is van de modelgrootte, en richt het zich in plaats daarvan op "harness engineering".
Het vlaggenschip van het bedrijf is een data science-tool die ontworpen is om inzichten te extraheren uit complexe datasets. In tegenstelling tot standaard chatbots die conversationele antwoorden geven, biedt de tool van Probably elk antwoord met een specifieke citatie en een transparant auditspoor, waardoor gebruikers de logica achter elke output kunnen verifiëren.
De "Data Science Mech Suit"-architectuur
In plaats van uitsluitend te vertrouwen op het redeneervermogen van een enorm model, maakt Probably gebruik van wat Elias een "data science mech suit" noemt. Deze architectuur functioneert als een geavanceerd harness-systeem waarbij de initiële output van de LLM onmiddellijk wordt gecontroleerd door een deterministische validator.
Als de LLM een resultaat produceert dat niet perfect overeenkomt met de onderliggende dataset, wijst de validator dit af. Cruciaal is dat de LLM specifiek tegen deze validator wordt getraind, wat een closed-loop-systeem creëert dat is geoptimaliseerd voor snelheid en feitelijke integriteit. Deze aanpak werkt volgens een fundamenteel principe: door de context te verfijnen en ambiguïteit te verminderen via engineering, kun je het model dwingen om "het juiste te doen" zonder dat daar enorme rekenkracht (brute force) voor nodig is.
Efficiëntie door kleinere, lokale modellen
Een van de belangrijkste technische implicaties van de aanpak van Probably is de mogelijkheid om kleinere, efficiëntere modellen te gebruiken. Omdat de "mech suit" het zware werk van validatie en contextverfijning op zich neemt, kan het systeem werken met modellen die "vier klassen zwakker zijn dan frontier-modellen".
Deze verschuiving biedt enorme economische en operationele voordelen:
- Lagere tokencosten: Kleinere modellen verlagen de kosten per query aanzienlijk, een cruciale factor nu bedrijven hun AI-budgetten willen optimaliseren.
- Lokale uitvoering: Deze lichtere modellen kunnen op lokale hardware draaien, zoals desktopcomputers, in plaats van afhankelijk te zijn van dure datacenterverbindingen met een hoge latentie.
- Schaalbaarheid: De engine is ontworpen om uitbreidbaar te zijn buiten data science, naar precisiegevoelige sectoren zoals de boekhouding en medische dienstverlening.
Het uitdagen van het prikkelmodel van grote AI-labs
Elias wijst op een structurele mismatch in het huidige AI-landschap: grote AI-labs worden gestimuleerd om massieve, algemene modellen te bouwen die frequente correcties van gebruikers vereisen. Omdat deze labs vaak rekenen op basis van tokengebruik, kunnen meer fouten en meer vervolgvragen de omzet zelfs verhogen. Door te focussen op precisie en het "verminderen van ambiguïteit" door middel van engineering in plaats van schaal, creëert Probably een niche voor missiekritische AI-toepassingen waar betrouwbaarheid de enige maatstaf is die telt.
Kernpunten
- Deterministische validatie: Probably maakt gebruik van een "mech suit"-architectuur om LLM-outputs te controleren aan de hand van een deterministische validator, met een doelstelling van 99,99% nauwkeurigheid.
- Kosteneffectieve engineering: Door ambiguïteit te verminderen via betere context engineering, kan het systeem draaien op veel kleinere, goedkopere modellen die op lokale hardware kunnen werken.
- Focus op precisie: De technologie is ontworpen om AI naar sectoren met een hoog risico en een grote behoefte aan precisie te brengen, zoals de medische wereld en de financiële sector, waar hallucinaties onacceptabel zijn.