Ви не можете бенчмаркати ШІ за допомогою реальних зустрічей

Я хотів знайти найкращий ШІ-нотатник. Я порівняв Granola, Fathom та Otter.

Я почав із запису реальної зустрічі. Я пропустив цей запис через усі три інструменти. Потім я зрозумів, що мій експеримент був марним.

Щоб оцінити транскрипцію, вам потрібна правильна версія для порівняння. На реальній зустрічі єдиним записом того, що відбулося, є сама транскрипція. Я оцінював іспит, використовуючи власні відповіді студентів. У мене не було ключів до відповідей.

Якщо вам бракує еталонних даних (ground truth), створіть їх самостійно.

Спочатку я написав сценарій для зустрічі двох людей. Я використав ElevenLabs, щоб перетворити цей текст на аудіо. Тепер точні слова — це те, що я сам надрукував. У мене є ідеальний ключ до відповідей.

Я наповнив сценарій складними термінами:

  • Позначення кварталів (Q3, Q2)
  • Відсотки (5.2%, 6.8%)
  • Суми в доларах ($16–$19)
  • Жаргон (churn, cohort, SSO, p95)
  • Імена та дедлайни

Ось що я дізнався з результатів:

Усі три інструменти демонструють чудову чисту точність (raw accuracy). Otter досяг 99% точності. Fathom був найточнішим. Granola зберегла зміст, але дещо спотворила кілька рядків.

Чиста точність (raw accuracy) — це неправильна метрика. Це лише базовий рівень. Справжні відмінності проявляються у двох сферах:

  1. Значущі токени: Otter мав високу точність, але перетворив "Q3" на "Q". На діловій зустрічі така помилка псує всі дані.
  2. Ідентифікація спікера: Otter був єдиним інструментом, який правильно визначив, хто і коли говорив. Granola видала мені один довгий потік тексту без імен.

"Найкращий" інструмент залежить від вашої мети:

  • Використовуйте Otter, якщо вам потрібно знати, хто що сказав.
  • Використовуйте Fathom, якщо вам потрібні ідеальні цифри та жаргон.
  • Використовуйте Granola, якщо хочете працювати без ботів для створення особистих нотаток.

Ви можете використовувати цей метод для будь-якого тестування перетворення мовлення в текст (speech-to-text). Створюйте сценарій для аудіо, щоб отримати можливість повторюваного тесту. Додавайте складні слова, щоб побачити, де моделі помиляються. Використовуйте один і той самий кліп, щоб перевірити, чи справді постачальник покращує свою модель з часом.

Синтетичне аудіо — чисте та просте. Це не ідеальна симуляція хаотичної зустрічі чотирьох людей. Але воно забезпечує чистий базовий рівень для порівняння інструментів між собою.

Джерело: https://dev.to/tiennguyenftuk52/you-cant-benchmark-an-ai-notetaker-against-a-real-meeting-you-dont-know-the-right-answer-so-i-3llo

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi