Sammelt vermutlich 9 Mio. $ ein, um LLM-Halluzinationen mittels Precision Engineering zu bekämpfen

📅2 hours ago⏱3 min read

In this article

Probably sammelt 9 Mio. $ ein, um LLM-Halluzinationen durch Precision Engineering zu bekämpfen

Da Large Language Models (LLMs) immer stärker in professionelle Arbeitsabläufe integriert werden, steht die Branche vor einer hartnäckigen Hürde: der Tendenz selbst der fortschrittlichsten Modelle zu halluzinieren. Das Startup Probably stellt sich dieser Herausforderung direkt und hat eine Seed-Finanzierung in Höhe von 9 Millionen US-Dollar unter der Leitung von Andreessen Horowitz gesichert, um einen strengeren, deterministischen Ansatz für die Zuverlässigkeit von KI zu entwickeln.

Auf dem Weg zu 99,99 % Genauigkeit

Die Kernmission von Probably unter der Leitung des Gründers Peter Elias besteht darin, die Lücke zwischen der probabilistischen Natur von LLMs und dem Standard von 99,99 % Genauigkeit zu schließen, der von deterministischen Systemen erwartet wird. In kritischen Umgebungen kann ein einziger faktischer Fehler ein KI-Tool unbrauchbar machen. Um dies zu lösen, distanziert sich Probably von der Vorstellung, dass Genauigkeit rein eine Funktion der Modellgröße ist, und konzentriert sich stattdessen auf „Harness Engineering“.

Das Flaggschiffprodukt des Unternehmens ist ein Data-Science-Tool, das darauf ausgelegt ist, Erkenntnisse aus komplexen Datensätzen zu gewinnen. Im Gegensatz zu Standard-Chatbots, die konversationelle Antworten liefern, stellt das Tool von Probably jede Antwort mit einer spezifischen Zitierung und einem transparenten Audit-Trail bereit, sodass Nutzer die Logik hinter jeder Ausgabe überprüfen können.

Die „Data Science Mech Suit“-Architektur

Anstatt sich ausschließlich auf die Argumentationsfähigkeiten eines massiven Modells zu verlassen, nutzt Probably das, was Elias einen „Data Science Mech Suit“ nennt. Diese Architektur fungiert als ein aufwendiges Harness-System, bei dem die erste Ausgabe des LLM sofort von einem deterministischen Validator überprüft wird.

Wenn das LLM ein Ergebnis liefert, das nicht perfekt mit dem zugrunde liegenden Datensatz übereinstimmt, weist der Validator dieses zurück. Entscheidend ist, dass das LLM gezielt gegen diesen Validator trainiert wird, wodurch ein Closed-Loop-System entsteht, das auf Geschwindigkeit und faktische Integrität optimiert ist. Dieser Ansatz basiert auf einem fundamentalen Prinzip: Durch die Verfeinerung des Kontexts und die Reduzierung von Mehrdeutigkeiten mittels Engineering kann man das Modell dazu zwingen, „das Richtige zu tun“, ohne massive Rechenleistung durch Brute-Force-Methoden zu benötigen.

Effizienz durch kleinere, lokale Modelle

Eine der bedeutendsten technischen Auswirkungen des Ansatzes von Probably ist die Möglichkeit, kleinere, effizientere Modelle zu verwenden. Da der „Mech Suit“ die Hauptarbeit bei der Validierung und Kontextverfeinerung übernimmt, kann das System mit Modellen arbeiten, die „vier Klassen schwächer als Frontier-Modelle“ sind.

Dieser Wandel bietet massive wirtschaftliche und operative Vorteile:

Reduzierte Token-Kosten: Kleinere Modelle senken die Kosten pro Abfrage erheblich – ein entscheidender Faktor, da Unternehmen ihre KI-Budgets optimieren wollen.
Lokale Ausführung: Diese leichteren Modelle können auf lokaler Hardware, wie etwa Desktop-Computern, laufen, anstatt teure Verbindungen zu Rechenzentren mit hoher Latenz zu benötigen.
Skalierbarkeit: Die Engine ist so konzipiert, dass sie über Data Science hinaus auf präzisionssensible Sektoren wie das Rechnungswesen und medizinische Dienstleistungen erweiterbar ist.

Die Anreizmodelle großer KI-Labore infrage stellen

Elias weist auf eine strukturelle Fehlausrichtung in der aktuellen KI-Landschaft hin: Große KI-Labore haben einen Anreiz, massive Universalmodelle zu entwickeln, die häufige Korrekturen durch Nutzer erfordern. Da diese Labore oft die Token-Nutzung in Rechnung stellen, können mehr Fehler und Folgeabfragen den Umsatz sogar steigern. Indem Probably den Fokus auf Präzision und die „Reduzierung von Mehrdeutigkeit“ durch Engineering statt durch reine Skalierung legt, erschließt sich das Unternehmen eine Nische für geschäftskritische KI-Anwendungen, bei denen Zuverlässigkeit die einzige entscheidende Kennzahl ist.

Wichtigste Erkenntnisse

Deterministische Validierung: Probably nutzt eine „Mech-Suit“-Architektur, um LLM-Ausgaben gegen einen deterministischen Validator zu prüfen, mit dem Ziel einer Genauigkeit von 99,99 %.
Kosteneffizientes Engineering: Durch die Reduzierung von Mehrdeutigkeit mittels besserem Context Engineering kann das System auf wesentlich kleineren, günstigeren Modellen laufen, die auf lokaler Hardware betrieben werden können.
Fokus auf Präzision: Die Technologie ist darauf ausgelegt, KI in hochsensible Bereiche wie die Medizin und das Finanzwesen zu bringen, in denen Halluzinationen inakzeptabel sind.

Sammelt vermutlich 9 Mio. $ ein, um LLM-Halluzinationen mittels Precision Engineering zu bekämpfen

Probably sammelt 9 Mio. $ ein, um LLM-Halluzinationen durch Precision Engineering zu bekämpfen

Auf dem Weg zu 99,99 % Genauigkeit

Die „Data Science Mech Suit“-Architektur

Effizienz durch kleinere, lokale Modelle

Die Anreizmodelle großer KI-Labore infrage stellen

Wichtigste Erkenntnisse

Continue reading

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

AI Red Teaming: Absicherung von Large Language Models gegen adversarielle Risiken

MA ProofBench: GPT 5.5 erreicht 16 % bei der mathematischen Analyse

Hin zu effizientem LLM-Serving