𝗬𝗼𝘂 𝗖𝗮𝗻'𝘁 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗔𝗜 𝗪𝗶𝘁𝗵 𝗥𝗲𝗮𝗹 𝗠𝗲𝗲𝘁𝗶𝗻𝗴𝘀

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 тижні тому2min read

Ви не можете бенчмаркати ШІ за допомогою реальних зустрічей

Я хотів знайти найкращий ШІ-нотатник. Я порівняв Granola, Fathom та Otter.

Я почав із запису реальної зустрічі. Я пропустив цей запис через усі три інструменти. Потім я зрозумів, що мій експеримент був марним.

Щоб оцінити транскрипцію, вам потрібна правильна версія для порівняння. На реальній зустрічі єдиним записом того, що відбулося, є сама транскрипція. Я оцінював іспит, використовуючи власні відповіді студентів. У мене не було ключів до відповідей.

Якщо вам бракує еталонних даних (ground truth), створіть їх самостійно.

Спочатку я написав сценарій для зустрічі двох людей. Я використав ElevenLabs, щоб перетворити цей текст на аудіо. Тепер точні слова — це те, що я сам надрукував. У мене є ідеальний ключ до відповідей.

Я наповнив сценарій складними термінами:

Позначення кварталів (Q3, Q2)
Відсотки (5.2%, 6.8%)
Суми в доларах ($16–$19)
Жаргон (churn, cohort, SSO, p95)
Імена та дедлайни

Ось що я дізнався з результатів:

Усі три інструменти демонструють чудову чисту точність (raw accuracy). Otter досяг 99% точності. Fathom був найточнішим. Granola зберегла зміст, але дещо спотворила кілька рядків.

Чиста точність (raw accuracy) — це неправильна метрика. Це лише базовий рівень. Справжні відмінності проявляються у двох сферах:

Значущі токени: Otter мав високу точність, але перетворив "Q3" на "Q". На діловій зустрічі така помилка псує всі дані.
Ідентифікація спікера: Otter був єдиним інструментом, який правильно визначив, хто і коли говорив. Granola видала мені один довгий потік тексту без імен.

"Найкращий" інструмент залежить від вашої мети:

Використовуйте Otter, якщо вам потрібно знати, хто що сказав.
Використовуйте Fathom, якщо вам потрібні ідеальні цифри та жаргон.
Використовуйте Granola, якщо хочете працювати без ботів для створення особистих нотаток.

Ви можете використовувати цей метод для будь-якого тестування перетворення мовлення в текст (speech-to-text). Створюйте сценарій для аудіо, щоб отримати можливість повторюваного тесту. Додавайте складні слова, щоб побачити, де моделі помиляються. Використовуйте один і той самий кліп, щоб перевірити, чи справді постачальник покращує свою модель з часом.

Синтетичне аудіо — чисте та просте. Це не ідеальна симуляція хаотичної зустрічі чотирьох людей. Але воно забезпечує чистий базовий рівень для порівняння інструментів між собою.

Джерело: https://dev.to/tiennguyenftuk52/you-cant-benchmark-an-ai-notetaker-against-a-real-meeting-you-dont-know-the-right-answer-so-i-3llo

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi