คุณไม่สามารถใช้การประชุมจริงมาเป็นเกณฑ์วัดประสิทธิภาพ AI ได้

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 สัปดาห์ที่ผ่านมา2min read

คุณไม่สามารถใช้การประชุมจริงมาทำ Benchmark AI ได้

ผมต้องการหา AI จดบันทึก (notetaker) ที่ดีที่สุด ผมจึงลองเปรียบเทียบ Granola, Fathom และ Otter

ผมเริ่มจากการบันทึกการประชุมจริง แล้วนำไฟล์เสียงนั้นไปผ่านเครื่องมือทั้งสามตัว จากนั้นผมก็ตระหนักได้ว่าการทดลองของผมนั้นไร้ประโยชน์

ในการให้คะแนน Transcript คุณจำเป็นต้องมีเวอร์ชันที่ถูกต้องเพื่อใช้เปรียบเทียบ แต่ในการประชุมจริง บันทึกเพียงอย่างเดียวของสิ่งที่เกิดขึ้นก็คือตัว Transcript นั่นเอง ผมกำลังตรวจข้อสอบโดยใช้คำตอบของนักเรียนเอง โดยที่ไม่มีเฉลยเลย

หากคุณขาด Ground Truth ก็จงสร้างมันขึ้นมาเอง

ขั้นแรกผมเขียนสคริปต์สำหรับการประชุมแบบสองคน จากนั้นใช้ ElevenLabs เปลี่ยนข้อความนั้นให้เป็นเสียง ตอนนี้ คำพูดที่แม่นยำก็คือสิ่งที่ผมพิมพ์ลงไปเอง ผมจึงมีเฉลยที่สมบูรณ์แบบ

ผมใส่คำศัพท์ยากๆ ลงไปในสคริปต์:

ชื่อไตรมาส (Q3, Q2)
เปอร์เซ็นต์ (5.2%, 6.8%)
ตัวเลขดอลลาร์ ($16 ถึง $19)
ศัพท์เฉพาะทาง (churn, cohort, SSO, p95)
ชื่อคนและกำหนดการ (deadlines)

นี่คือสิ่งที่ผมได้เรียนรู้จากผลลัพธ์:

เครื่องมือทั้งสามตัวมีความแม่นยำดิบ (raw accuracy) ที่ยอดเยี่ยมมาก Otter ทำความแม่นยำได้ถึง 99% ส่วน Fathom มีความแม่นยำที่สุด ขณะที่ Granola ยังคงรักษาความหมายไว้ได้แต่มีบางประโยคที่อ่านไม่รู้เรื่อง

ความแม่นยำดิบไม่ใช่ตัวชี้วัดที่ถูกต้อง มันเป็นเพียงแค่เกณฑ์มาตรฐานเท่านั้น ความแตกต่างที่แท้จริงจะปรากฏในสองด้านนี้:

Meaningful tokens: Otter มีความแม่นยำสูงแต่กลับเปลี่ยน "Q3" เป็น "Q" ในการประชุมทางธุรกิจ ความผิดพลาดนี้ทำให้ข้อมูลเสียไปเลย
Speaker attribution: Otter เป็นเครื่องมือเดียวที่ระบุได้ถูกต้องว่าใครพูดตอนไหน ส่วน Granola ให้ข้อความยาวเหยียดมาเพียงชุดเดียวโดยไม่มีชื่อระบุ

เครื่องมือที่ "ดีที่สุด" ขึ้นอยู่กับเป้าหมายของคุณ:

ใช้ Otter หากคุณต้องการทราบว่าใครพูดอะไร
ใช้ Fathom หากคุณต้องการตัวเลขและศัพท์เฉพาะทางที่แม่นยำ
ใช้ Granola หากคุณต้องการประสบการณ์การจดบันทึกส่วนตัวแบบไม่มีบอทมาแทรกแซง

คุณสามารถใช้วิธีนี้กับการทดสอบ Speech-to-Text ใดๆ ก็ได้ เขียนสคริปต์เสียงของคุณเพื่อให้ได้การทดสอบที่ทำซ้ำได้ ใส่คำศัพท์ยากๆ เพื่อดูว่าโมเดลล้มเหลวตรงไหน และใช้คลิปเดิมเพื่อดูว่าผู้ให้บริการมีการพัฒนาโมเดลของพวกเขาให้ดีขึ้นตามกาลเวลาจริงหรือไม่

เสียงสังเคราะห์นั้นสะอาดและง่าย แต่มันไม่ใช่การจำลองการประชุมสี่คนที่วุ่นวายได้อย่างสมบูรณ์แบบ อย่างไรก็ตาม มันช่วยให้มีเกณฑ์มาตรฐานที่ชัดเจนในการเปรียบเทียบเครื่องมือแต่ละตัวเข้าด้วยกัน

Source: https://dev.to/tiennguyenftuk52/you-cant-benchmark-an-ai-notetaker-against-a-real-meeting-you-dont-know-the-right-answer-so-i-3llo

Optional learning community: https://t.me/GyaanSetuAi