Probably sammelt 9 Mio. $ ein, um LLM-Halluzinationen durch Precision Engineering zu bekämpfen
Da Large Language Models (LLMs) immer stärker in professionelle Arbeitsabläufe integriert werden, steht die Branche vor einer hartnäckigen Hürde: der Tendenz selbst der fortschrittlichsten Modelle zu halluzinieren. Das Startup Probably stellt sich dieser Herausforderung direkt und hat eine Seed-Finanzierung in Höhe von 9 Millionen US-Dollar unter der Leitung von Andreessen Horowitz gesichert, um einen strengeren, deterministischen Ansatz für die Zuverlässigkeit von KI zu entwickeln.
Auf dem Weg zu 99,99 % Genauigkeit
Die Kernmission von Probably unter der Leitung des Gründers Peter Elias besteht darin, die Lücke zwischen der probabilistischen Natur von LLMs und dem Standard von 99,99 % Genauigkeit zu schließen, der von deterministischen Systemen erwartet wird. In kritischen Umgebungen kann ein einziger faktischer Fehler ein KI-Tool unbrauchbar machen. Um dies zu lösen, distanziert sich Probably von der Vorstellung, dass Genauigkeit rein eine Funktion der Modellgröße ist, und konzentriert sich stattdessen auf „Harness Engineering“.
Das Flaggschiffprodukt des Unternehmens ist ein Data-Science-Tool, das darauf ausgelegt ist, Erkenntnisse aus komplexen Datensätzen zu gewinnen. Im Gegensatz zu Standard-Chatbots, die konversationelle Antworten liefern, stellt das Tool von Probably jede Antwort mit einer spezifischen Zitierung und einem transparenten Audit-Trail bereit, sodass Nutzer die Logik hinter jeder Ausgabe überprüfen können.
Die „Data Science Mech Suit“-Architektur
Anstatt sich ausschließlich auf die Argumentationsfähigkeiten eines massiven Modells zu verlassen, nutzt Probably das, was Elias einen „Data Science Mech Suit“ nennt. Diese Architektur fungiert als ein aufwendiges Harness-System, bei dem die erste Ausgabe des LLM sofort von einem deterministischen Validator überprüft wird.
Wenn das LLM ein Ergebnis liefert, das nicht perfekt mit dem zugrunde liegenden Datensatz übereinstimmt, weist der Validator dieses zurück. Entscheidend ist, dass das LLM gezielt gegen diesen Validator trainiert wird, wodurch ein Closed-Loop-System entsteht, das auf Geschwindigkeit und faktische Integrität optimiert ist. Dieser Ansatz basiert auf einem fundamentalen Prinzip: Durch die Verfeinerung des Kontexts und die Reduzierung von Mehrdeutigkeiten mittels Engineering kann man das Modell dazu zwingen, „das Richtige zu tun“, ohne massive Rechenleistung durch Brute-Force-Methoden zu benötigen.
Effizienz durch kleinere, lokale Modelle
Eine der bedeutendsten technischen Auswirkungen des Ansatzes von Probably ist die Möglichkeit, kleinere, effizientere Modelle zu verwenden. Da der „Mech Suit“ die Hauptarbeit bei der Validierung und Kontextverfeinerung übernimmt, kann das System mit Modellen arbeiten, die „vier Klassen schwächer als Frontier-Modelle“ sind.
Dieser Wandel bietet massive wirtschaftliche und operative Vorteile:
- Reduzierte Token-Kosten: Kleinere Modelle senken die Kosten pro Abfrage erheblich – ein entscheidender Faktor, da Unternehmen ihre KI-Budgets optimieren wollen.
- Lokale Ausführung: Diese leichteren Modelle können auf lokaler Hardware, wie etwa Desktop-Computern, laufen, anstatt teure Verbindungen zu Rechenzentren mit hoher Latenz zu benötigen.
- Skalierbarkeit: Die Engine ist so konzipiert, dass sie über Data Science hinaus auf präzisionssensible Sektoren wie das Rechnungswesen und medizinische Dienstleistungen erweiterbar ist.
Die Anreizmodelle großer KI-Labore infrage stellen
Elias weist auf eine strukturelle Fehlausrichtung in der aktuellen KI-Landschaft hin: Große KI-Labore haben einen Anreiz, massive Universalmodelle zu entwickeln, die häufige Korrekturen durch Nutzer erfordern. Da diese Labore oft die Token-Nutzung in Rechnung stellen, können mehr Fehler und Folgeabfragen den Umsatz sogar steigern. Indem Probably den Fokus auf Präzision und die „Reduzierung von Mehrdeutigkeit“ durch Engineering statt durch reine Skalierung legt, erschließt sich das Unternehmen eine Nische für geschäftskritische KI-Anwendungen, bei denen Zuverlässigkeit die einzige entscheidende Kennzahl ist.
Wichtigste Erkenntnisse
- Deterministische Validierung: Probably nutzt eine „Mech-Suit“-Architektur, um LLM-Ausgaben gegen einen deterministischen Validator zu prüfen, mit dem Ziel einer Genauigkeit von 99,99 %.
- Kosteneffizientes Engineering: Durch die Reduzierung von Mehrdeutigkeit mittels besserem Context Engineering kann das System auf wesentlich kleineren, günstigeren Modellen laufen, die auf lokaler Hardware betrieben werden können.
- Fokus auf Präzision: Die Technologie ist darauf ausgelegt, KI in hochsensible Bereiche wie die Medizin und das Finanzwesen zu bringen, in denen Halluzinationen inakzeptabel sind.