Ви не можете бенчмаркати ШІ за допомогою реальних зустрічей
Я хотів знайти найкращий ШІ-нотатник. Я порівняв Granola, Fathom та Otter.
Я почав із запису реальної зустрічі. Я пропустив цей запис через усі три інструменти. Потім я зрозумів, що мій експеримент був марним.
Щоб оцінити транскрипцію, вам потрібна правильна версія для порівняння. На реальній зустрічі єдиним записом того, що відбулося, є сама транскрипція. Я оцінював іспит, використовуючи власні відповіді студентів. У мене не було ключів до відповідей.
Якщо вам бракує еталонних даних (ground truth), створіть їх самостійно.
Спочатку я написав сценарій для зустрічі двох людей. Я використав ElevenLabs, щоб перетворити цей текст на аудіо. Тепер точні слова — це те, що я сам надрукував. У мене є ідеальний ключ до відповідей.
Я наповнив сценарій складними термінами:
- Позначення кварталів (Q3, Q2)
- Відсотки (5.2%, 6.8%)
- Суми в доларах ($16–$19)
- Жаргон (churn, cohort, SSO, p95)
- Імена та дедлайни
Ось що я дізнався з результатів:
Усі три інструменти демонструють чудову чисту точність (raw accuracy). Otter досяг 99% точності. Fathom був найточнішим. Granola зберегла зміст, але дещо спотворила кілька рядків.
Чиста точність (raw accuracy) — це неправильна метрика. Це лише базовий рівень. Справжні відмінності проявляються у двох сферах:
- Значущі токени: Otter мав високу точність, але перетворив "Q3" на "Q". На діловій зустрічі така помилка псує всі дані.
- Ідентифікація спікера: Otter був єдиним інструментом, який правильно визначив, хто і коли говорив. Granola видала мені один довгий потік тексту без імен.
"Найкращий" інструмент залежить від вашої мети:
- Використовуйте Otter, якщо вам потрібно знати, хто що сказав.
- Використовуйте Fathom, якщо вам потрібні ідеальні цифри та жаргон.
- Використовуйте Granola, якщо хочете працювати без ботів для створення особистих нотаток.
Ви можете використовувати цей метод для будь-якого тестування перетворення мовлення в текст (speech-to-text). Створюйте сценарій для аудіо, щоб отримати можливість повторюваного тесту. Додавайте складні слова, щоб побачити, де моделі помиляються. Використовуйте один і той самий кліп, щоб перевірити, чи справді постачальник покращує свою модель з часом.
Синтетичне аудіо — чисте та просте. Це не ідеальна симуляція хаотичної зустрічі чотирьох людей. Але воно забезпечує чистий базовий рівень для порівняння інструментів між собою.
Додаткова спільнота для навчання: https://t.me/GyaanSetuAi