Probably sammelt 9 Mio. $ ein, um LLM-Halluzinationen durch Precision Engineering zu bekämpfen

Da Large Language Models (LLMs) immer stärker in professionelle Arbeitsabläufe integriert werden, steht die Branche vor einer hartnäckigen Hürde: der Tendenz selbst der fortschrittlichsten Modelle zu halluzinieren. Das Startup Probably stellt sich dieser Herausforderung direkt und hat eine Seed-Finanzierung in Höhe von 9 Millionen US-Dollar unter der Leitung von Andreessen Horowitz gesichert, um einen strengeren, deterministischen Ansatz für die Zuverlässigkeit von KI zu entwickeln.

Auf dem Weg zu 99,99 % Genauigkeit

Die Kernmission von Probably unter der Leitung des Gründers Peter Elias besteht darin, die Lücke zwischen der probabilistischen Natur von LLMs und dem Standard von 99,99 % Genauigkeit zu schließen, der von deterministischen Systemen erwartet wird. In kritischen Umgebungen kann ein einziger faktischer Fehler ein KI-Tool unbrauchbar machen. Um dies zu lösen, distanziert sich Probably von der Vorstellung, dass Genauigkeit rein eine Funktion der Modellgröße ist, und konzentriert sich stattdessen auf „Harness Engineering“.

Das Flaggschiffprodukt des Unternehmens ist ein Data-Science-Tool, das darauf ausgelegt ist, Erkenntnisse aus komplexen Datensätzen zu gewinnen. Im Gegensatz zu Standard-Chatbots, die konversationelle Antworten liefern, stellt das Tool von Probably jede Antwort mit einer spezifischen Zitierung und einem transparenten Audit-Trail bereit, sodass Nutzer die Logik hinter jeder Ausgabe überprüfen können.

Die „Data Science Mech Suit“-Architektur

Anstatt sich ausschließlich auf die Argumentationsfähigkeiten eines massiven Modells zu verlassen, nutzt Probably das, was Elias einen „Data Science Mech Suit“ nennt. Diese Architektur fungiert als ein aufwendiges Harness-System, bei dem die erste Ausgabe des LLM sofort von einem deterministischen Validator überprüft wird.

Wenn das LLM ein Ergebnis liefert, das nicht perfekt mit dem zugrunde liegenden Datensatz übereinstimmt, weist der Validator dieses zurück. Entscheidend ist, dass das LLM gezielt gegen diesen Validator trainiert wird, wodurch ein Closed-Loop-System entsteht, das auf Geschwindigkeit und faktische Integrität optimiert ist. Dieser Ansatz basiert auf einem fundamentalen Prinzip: Durch die Verfeinerung des Kontexts und die Reduzierung von Mehrdeutigkeiten mittels Engineering kann man das Modell dazu zwingen, „das Richtige zu tun“, ohne massive Rechenleistung durch Brute-Force-Methoden zu benötigen.

Effizienz durch kleinere, lokale Modelle

Eine der bedeutendsten technischen Auswirkungen des Ansatzes von Probably ist die Möglichkeit, kleinere, effizientere Modelle zu verwenden. Da der „Mech Suit“ die Hauptarbeit bei der Validierung und Kontextverfeinerung übernimmt, kann das System mit Modellen arbeiten, die „vier Klassen schwächer als Frontier-Modelle“ sind.

Dieser Wandel bietet massive wirtschaftliche und operative Vorteile:

Die Anreizmodelle großer KI-Labore infrage stellen

Elias weist auf eine strukturelle Fehlausrichtung in der aktuellen KI-Landschaft hin: Große KI-Labore haben einen Anreiz, massive Universalmodelle zu entwickeln, die häufige Korrekturen durch Nutzer erfordern. Da diese Labore oft die Token-Nutzung in Rechnung stellen, können mehr Fehler und Folgeabfragen den Umsatz sogar steigern. Indem Probably den Fokus auf Präzision und die „Reduzierung von Mehrdeutigkeit“ durch Engineering statt durch reine Skalierung legt, erschließt sich das Unternehmen eine Nische für geschäftskritische KI-Anwendungen, bei denen Zuverlässigkeit die einzige entscheidende Kennzahl ist.

Wichtigste Erkenntnisse