Haalt waarschijnlijk $9 miljoen op om LLM-hallucinaties te bestrijden met precisietechniek

📅2 hours ago⏱3 min read

In this article

Probably haalt $9 miljoen op om LLM-hallucinaties te bestrijden met precisietechniek

Naarmate Large Language Models (LLM's) steeds meer worden geïntegreerd in professionele workflows, staat de sector voor een hardnekkige hindernis: de neiging van zelfs de meest geavanceerde modellen om te hallucineren. Startup Probably pakt deze uitdaging rechtstreeks aan door 9 miljoen dollar aan seed-financiering binnen te halen onder leiding van Andreessen Horowitz, om een striktere, deterministische aanpak voor AI-betrouwbaarheid te ontwikkelen.

Naar 99,99% nauwkeurigheid

De kernmissie van Probably, onder leiding van oprichter Peter Elias, is het overbruggen van de kloof tussen de probabilistische aard van LLM's en de standaard van 99,99% nauwkeurigheid die van deterministische systemen wordt verwacht. In omgevingen met een hoog risico kan één enkele feitelijke fout een AI-tool nutteloos maken. Om dit op te lossen, beweegt Probably zich weg van het idee dat nauwkeurigheid puur een functie is van de modelgrootte, en richt het zich in plaats daarvan op "harness engineering".

Het vlaggenschip van het bedrijf is een data science-tool die ontworpen is om inzichten te extraheren uit complexe datasets. In tegenstelling tot standaard chatbots die conversationele antwoorden geven, biedt de tool van Probably elk antwoord met een specifieke citatie en een transparant auditspoor, waardoor gebruikers de logica achter elke output kunnen verifiëren.

De "Data Science Mech Suit"-architectuur

In plaats van uitsluitend te vertrouwen op het redeneervermogen van een enorm model, maakt Probably gebruik van wat Elias een "data science mech suit" noemt. Deze architectuur functioneert als een geavanceerd harness-systeem waarbij de initiële output van de LLM onmiddellijk wordt gecontroleerd door een deterministische validator.

Als de LLM een resultaat produceert dat niet perfect overeenkomt met de onderliggende dataset, wijst de validator dit af. Cruciaal is dat de LLM specifiek tegen deze validator wordt getraind, wat een closed-loop-systeem creëert dat is geoptimaliseerd voor snelheid en feitelijke integriteit. Deze aanpak werkt volgens een fundamenteel principe: door de context te verfijnen en ambiguïteit te verminderen via engineering, kun je het model dwingen om "het juiste te doen" zonder dat daar enorme rekenkracht (brute force) voor nodig is.

Efficiëntie door kleinere, lokale modellen

Een van de belangrijkste technische implicaties van de aanpak van Probably is de mogelijkheid om kleinere, efficiëntere modellen te gebruiken. Omdat de "mech suit" het zware werk van validatie en contextverfijning op zich neemt, kan het systeem werken met modellen die "vier klassen zwakker zijn dan frontier-modellen".

Deze verschuiving biedt enorme economische en operationele voordelen:

Lagere tokencosten: Kleinere modellen verlagen de kosten per query aanzienlijk, een cruciale factor nu bedrijven hun AI-budgetten willen optimaliseren.
Lokale uitvoering: Deze lichtere modellen kunnen op lokale hardware draaien, zoals desktopcomputers, in plaats van afhankelijk te zijn van dure datacenterverbindingen met een hoge latentie.
Schaalbaarheid: De engine is ontworpen om uitbreidbaar te zijn buiten data science, naar precisiegevoelige sectoren zoals de boekhouding en medische dienstverlening.

Het uitdagen van het prikkelmodel van grote AI-labs

Elias wijst op een structurele mismatch in het huidige AI-landschap: grote AI-labs worden gestimuleerd om massieve, algemene modellen te bouwen die frequente correcties van gebruikers vereisen. Omdat deze labs vaak rekenen op basis van tokengebruik, kunnen meer fouten en meer vervolgvragen de omzet zelfs verhogen. Door te focussen op precisie en het "verminderen van ambiguïteit" door middel van engineering in plaats van schaal, creëert Probably een niche voor missiekritische AI-toepassingen waar betrouwbaarheid de enige maatstaf is die telt.

Kernpunten

Deterministische validatie: Probably maakt gebruik van een "mech suit"-architectuur om LLM-outputs te controleren aan de hand van een deterministische validator, met een doelstelling van 99,99% nauwkeurigheid.
Kosteneffectieve engineering: Door ambiguïteit te verminderen via betere context engineering, kan het systeem draaien op veel kleinere, goedkopere modellen die op lokale hardware kunnen werken.
Focus op precisie: De technologie is ontworpen om AI naar sectoren met een hoog risico en een grote behoefte aan precisie te brengen, zoals de medische wereld en de financiële sector, waar hallucinaties onacceptabel zijn.

Haalt waarschijnlijk $9 miljoen op om LLM-hallucinaties te bestrijden met precisietechniek

Probably haalt $9 miljoen op om LLM-hallucinaties te bestrijden met precisietechniek

Naar 99,99% nauwkeurigheid

De "Data Science Mech Suit"-architectuur

Efficiëntie door kleinere, lokale modellen

Het uitdagen van het prikkelmodel van grote AI-labs

Kernpunten

Continue reading

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

AI Red Teaming: Large Language Models beveiligen tegen adversariële risico's

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

𝗧𝗼𝘄𝗮𝗿𝗱𝘀 𝗘𝗳𝗳𝗶𝗰𝗶𝗲𝗻𝘁 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗶𝗻𝗴