คุณไม่สามารถใช้การประชุมจริงมาทำ Benchmark AI ได้
ผมต้องการหา AI จดบันทึก (notetaker) ที่ดีที่สุด ผมจึงลองเปรียบเทียบ Granola, Fathom และ Otter
ผมเริ่มจากการบันทึกการประชุมจริง แล้วนำไฟล์เสียงนั้นไปผ่านเครื่องมือทั้งสามตัว จากนั้นผมก็ตระหนักได้ว่าการทดลองของผมนั้นไร้ประโยชน์
ในการให้คะแนน Transcript คุณจำเป็นต้องมีเวอร์ชันที่ถูกต้องเพื่อใช้เปรียบเทียบ แต่ในการประชุมจริง บันทึกเพียงอย่างเดียวของสิ่งที่เกิดขึ้นก็คือตัว Transcript นั่นเอง ผมกำลังตรวจข้อสอบโดยใช้คำตอบของนักเรียนเอง โดยที่ไม่มีเฉลยเลย
หากคุณขาด Ground Truth ก็จงสร้างมันขึ้นมาเอง
ขั้นแรกผมเขียนสคริปต์สำหรับการประชุมแบบสองคน จากนั้นใช้ ElevenLabs เปลี่ยนข้อความนั้นให้เป็นเสียง ตอนนี้ คำพูดที่แม่นยำก็คือสิ่งที่ผมพิมพ์ลงไปเอง ผมจึงมีเฉลยที่สมบูรณ์แบบ
ผมใส่คำศัพท์ยากๆ ลงไปในสคริปต์:
- ชื่อไตรมาส (Q3, Q2)
- เปอร์เซ็นต์ (5.2%, 6.8%)
- ตัวเลขดอลลาร์ ($16 ถึง $19)
- ศัพท์เฉพาะทาง (churn, cohort, SSO, p95)
- ชื่อคนและกำหนดการ (deadlines)
นี่คือสิ่งที่ผมได้เรียนรู้จากผลลัพธ์:
เครื่องมือทั้งสามตัวมีความแม่นยำดิบ (raw accuracy) ที่ยอดเยี่ยมมาก Otter ทำความแม่นยำได้ถึง 99% ส่วน Fathom มีความแม่นยำที่สุด ขณะที่ Granola ยังคงรักษาความหมายไว้ได้แต่มีบางประโยคที่อ่านไม่รู้เรื่อง
ความแม่นยำดิบไม่ใช่ตัวชี้วัดที่ถูกต้อง มันเป็นเพียงแค่เกณฑ์มาตรฐานเท่านั้น ความแตกต่างที่แท้จริงจะปรากฏในสองด้านนี้:
- Meaningful tokens: Otter มีความแม่นยำสูงแต่กลับเปลี่ยน "Q3" เป็น "Q" ในการประชุมทางธุรกิจ ความผิดพลาดนี้ทำให้ข้อมูลเสียไปเลย
- Speaker attribution: Otter เป็นเครื่องมือเดียวที่ระบุได้ถูกต้องว่าใครพูดตอนไหน ส่วน Granola ให้ข้อความยาวเหยียดมาเพียงชุดเดียวโดยไม่มีชื่อระบุ
เครื่องมือที่ "ดีที่สุด" ขึ้นอยู่กับเป้าหมายของคุณ:
- ใช้ Otter หากคุณต้องการทราบว่าใครพูดอะไร
- ใช้ Fathom หากคุณต้องการตัวเลขและศัพท์เฉพาะทางที่แม่นยำ
- ใช้ Granola หากคุณต้องการประสบการณ์การจดบันทึกส่วนตัวแบบไม่มีบอทมาแทรกแซง
คุณสามารถใช้วิธีนี้กับการทดสอบ Speech-to-Text ใดๆ ก็ได้ เขียนสคริปต์เสียงของคุณเพื่อให้ได้การทดสอบที่ทำซ้ำได้ ใส่คำศัพท์ยากๆ เพื่อดูว่าโมเดลล้มเหลวตรงไหน และใช้คลิปเดิมเพื่อดูว่าผู้ให้บริการมีการพัฒนาโมเดลของพวกเขาให้ดีขึ้นตามกาลเวลาจริงหรือไม่
เสียงสังเคราะห์นั้นสะอาดและง่าย แต่มันไม่ใช่การจำลองการประชุมสี่คนที่วุ่นวายได้อย่างสมบูรณ์แบบ อย่างไรก็ตาม มันช่วยให้มีเกณฑ์มาตรฐานที่ชัดเจนในการเปรียบเทียบเครื่องมือแต่ละตัวเข้าด้วยกัน
Optional learning community: https://t.me/GyaanSetuAi