Ihr LLM lag richtig, aber lag es aus dem richtigen Grund richtig?

Ich habe einen Benchmark entwickelt, um zu testen, ob ein LLM klinische genetische Varianten interpretieren kann.

Die ersten Ergebnisse sahen schlecht aus. Das Modell erreichte eine Genauigkeit von 60 Prozent. Ich kam fast zu dem Schluss, dass das Modell mittelmäßig und ungeeignet für den Einsatz sei.

Ich lag falsch.

Die eigentliche Erkenntnis stellte sich erst ein, als ich aufhörte, die Genauigkeit zu messen, und anfing, die Sicherheit zu messen.

In der klinischen Genetik kann eine falsche Antwort gefährlich sein. Es gibt zwei Arten von Fehlern:

  • Sichere Enthaltung: Das Modell sagt „unsicher“, obwohl die Wahrheit eine eindeutige Feststellung ist. Dies ist sicher, da ein Mensch die Sache untersuchen wird.
  • Fehler mit hoher Konfidenz: Das Modell trifft die gegenteilige Entscheidung (z. B. eine krankheitsverursachende Variante als „gutartig“ einzustufen). Dies ist ein gefährliches Versagen.

Mein Benchmark zeigte, dass das Modell null Fehler mit hoher Konfidenz gemacht hatte. Es hat nie einen gefährlichen Fehler begangen. Es entschied sich einfach dazu, zu schweigen, wenn es nicht über ausreichende Belege verfügte.

Als ich eine einfache Genauigkeitsmetrik verwendete, stufte ich ein sicheres, gut kalibriertes Modell als Fehlschlag ein. Meine Metrik war das Problem, nicht das Modell.

Wenn Sie Benchmarks für Hochrisikobereiche wie Medizin, Recht oder Finanzen entwickeln, befolgen Sie diese Regeln:

  • Trennen Sie sichere Fehler von gefährlichen. Packen Sie ein ehrliches „Ich weiß es nicht“ niemals in denselben Topf wie eine selbstbewusste Lüge.
  • Überprüfen Sie die Argumentation. Die Genauigkeit allein zeigt nicht, ob ein Modell Beweise erfindet oder einer Logik folgt.
  • Halten Sie Ihre Belege echt. Speisen Sie keine gefälschten Daten in Ihre Tests ein. Wenn Ihre Evaluierung gefälschte Daten verwendet, können Sie nicht testen, ob das Modell halluziniert.
  • Kalibrieren Sie Ihre eigene Analyse. Kleine Stichproben können täuschen. Veröffentlichen Sie keine Ergebnisse, bevor Sie diese mit größeren Datenmengen verifiziert haben.

In Hochrisikobereichen