Anda Tidak Bisa Melakukan Benchmark AI dengan Rapat Nyata

Saya ingin menemukan AI notetaker terbaik. Saya membandingkan Granola, Fathom, dan Otter.

Saya mulai dengan merekam rapat nyata. Saya menjalankan rekaman tersebut melalui ketiga alat tersebut. Kemudian saya menyadari bahwa eksperimen saya sia-sia.

Untuk menilai sebuah transkrip, Anda memerlukan versi yang benar sebagai pembanding. Dalam rapat nyata, satu-satunya catatan tentang apa yang terjadi adalah transkrip itu sendiri. Saya sedang menilai ujian menggunakan jawaban siswa itu sendiri. Saya tidak memiliki kunci jawaban.

Jika Anda kekurangan ground truth, buatlah sendiri.

Pertama, saya menulis skrip untuk rapat dua orang. Saya menggunakan ElevenLabs untuk mengubah teks tersebut menjadi audio. Sekarang, kata-kata tepatnya adalah sesuatu yang saya ketik. Saya memiliki kunci jawaban yang sempurna.

Saya menyisipkan istilah-istilah sulit ke dalam skrip:

  • Label kuartal (Q3, Q2)
  • Persentase (5,2%, 6,8%)
  • Angka dolar ($16 hingga $19)
  • Jargon (churn, cohort, SSO, p95)
  • Nama dan tenggat waktu

Berikut adalah apa yang saya pelajari dari hasilnya:

Ketiga alat tersebut sangat luar biasa dalam hal akurasi mentah. Otter mencapai akurasi 99%. Fathom adalah yang paling presisi. Granola tetap mempertahankan maknanya tetapi mengacak beberapa baris.

Akurasi mentah adalah metrik yang salah. Itu hanyalah baseline. Perbedaan sebenarnya muncul di dua area:

  1. Token bermakna: Otter memiliki akurasi tinggi tetapi mengubah "Q3" menjadi "Q". Dalam rapat bisnis, kesalahan itu merusak data.
  2. Atribusi pembicara: Otter adalah satu-satunya alat yang mengidentifikasi dengan benar siapa yang berbicara kapan. Granola memberi saya satu aliran teks panjang tanpa nama.

Alat "terbaik" bergantung pada tujuan Anda:

  • Gunakan Otter jika Anda perlu tahu siapa mengatakan apa.
  • Gunakan Fathom jika Anda memerlukan angka dan jargon yang sempurna.
  • Gunakan Granola jika Anda menginginkan pengalaman tanpa bot untuk catatan mandiri.

Anda dapat menggunakan metode ini untuk pengujian speech-to-text apa pun. Buatlah skrip audio Anda untuk mendapatkan pengujian yang dapat diulang. Tambahkan kata-kata sulit untuk melihat di mana model gagal. Gunakan klip yang sama untuk melihat apakah vendor benar-benar meningkatkan model mereka seiring waktu.

Audio sintetis itu bersih dan mudah. Itu bukan simulasi sempurna dari rapat empat orang yang berantakan. Namun, itu menyediakan baseline yang bersih untuk membandingkan satu alat dengan alat lainnya.

Sumber: