Man kann KI nicht mit echten Meetings benchmarken

Ich wollte den besten KI-Notizenschreiber finden. Ich habe Granola, Fathom und Otter verglichen.

Ich begann damit, ein echtes Meeting aufzunehmen. Ich ließ die Aufnahme durch alle drei Tools laufen. Dann wurde mir klar, dass mein Experiment nutzlos war.

Um ein Transkript zu bewerten, benötigt man eine korrekte Version zum Vergleich. In einem echten Meeting ist das Transkript selbst der einzige Beleg für das Geschehene. Ich habe die Prüfung mit den Antworten der Schüler selbst bewertet. Ich hatte keinen Lösungsschlüssel.

Wenn die Ground Truth fehlt, erschaffe sie selbst.

Zuerst schrieb ich ein Skript für ein Meeting zwischen zwei Personen. Ich nutzte ElevenLabs, um diesen Text in Audio umzuwandeln. Jetzt sind die exakten Worte etwas, das ich selbst getippt habe. Ich habe einen perfekten Lösungsschlüssel.

Ich habe das Skript mit schwierigen Begriffen vollgestopft:

  • Quartalsangaben (Q3, Q2)
  • Prozentsätze (5,2 %, 6,8 %)
  • Dollarbeträge ($16 bis $19)
  • Fachjargon (churn, cohort, SSO, p95)
  • Namen und Fristen

Das habe ich aus den Ergebnissen gelernt:

Alle drei Tools sind bei der reinen Genauigkeit (Raw Accuracy) hervorragend. Otter erreichte 99 % Genauigkeit. Fathom war am präzisesten. Granola behielt die Bedeutung bei, verfälschte aber einige Zeilen.

Die reine Genauigkeit ist die falsche Metrik. Sie ist lediglich die Basislinie. Die wirklichen Unterschiede zeigen sich in zwei Bereichen:

  1. Bedeutungsvolle Token: Otter hatte eine hohe Genauigkeit, verwandelte aber „Q3“ in „Q“. In einem Business-Meeting ruiniert dieser Fehler die Daten.
  2. Sprecherzuordnung: Otter war das einzige Tool, das korrekt identifizierte, wer wann sprach. Granola lieferte mir einen einzigen langen Textstrom ohne Namen.

Das „beste“ Tool hängt von Ihrem Ziel ab:

  • Nutzen Sie Otter, wenn Sie wissen müssen, wer was gesagt hat.
  • Nutzen Sie Fathom, wenn Sie perfekte Zahlen und Fachjargon benötigen.
  • Nutzen Sie Granola, wenn Sie eine bot-freie Erfahrung für eigene Notizen suchen.

Sie können diese Methode für jedes Speech-to-Text-Testing verwenden. Erstellen Sie ein Skript für Ihr Audio, um einen wiederholbaren Test zu erhalten. Fügen Sie schwierige Wörter hinzu, um zu sehen, wo Modelle scheitern. Verwenden Sie denselben Clip, um zu prüfen, ob ein Anbieter sein Modell im Laufe der Zeit tatsächlich verbessert.

Synthetisches Audio ist sauber und unkompliziert. Es ist keine perfekte Simulation eines chaotischen Meetings mit vier Personen. Aber es bietet eine saubere Basislinie, um Tools miteinander zu vergleichen.

Quelle: https://dev.to/tiennguyenftuk52/you-cant-benchmark-an-ai-notetaker-against-a-real-meeting-you-dont-know-the-right-answer-so-i-3llo

Optionale Lern-Community: https://t.me/GyaanSetuAi