आप वास्तविक मीटिंग्स के आधार पर AI का बेंचमार्किंग नहीं कर सकते
मैं सबसे अच्छा AI notetaker ढूँढना चाहता था। मैंने Granola, Fathom और Otter की तुलना की।
मैंने एक वास्तविक मीटिंग रिकॉर्ड करके शुरुआत की। मैंने उस रिकॉर्डिंग को तीनों टूल्स के माध्यम से चलाया। फिर मुझे एहसास हुआ कि मेरा प्रयोग बेकार था।
एक ट्रांसक्रिप्ट को स्कोर करने के लिए, आपको तुलना करने के लिए एक सही वर्ज़न की आवश्यकता होती है। एक वास्तविक मीटिंग में, जो कुछ भी हुआ उसका एकमात्र रिकॉर्ड ट्रांसक्रिप्ट ही होती है। मैं छात्रों के अपने ही उत्तरों का उपयोग करके परीक्षा का मूल्यांकन कर रहा था। मेरे पास कोई उत्तर कुंजी (answer key) नहीं थी।
यदि आपके पास 'ग्राउंड ट्रुथ' (ground truth) की कमी है, तो उसे खुद तैयार करें।
मैंने पहले दो लोगों की मीटिंग के लिए एक स्क्रिप्ट लिखी। मैंने उस टेक्स्ट को ऑडियो में बदलने के लिए ElevenLabs का उपयोग किया। अब, सटीक शब्द वही हैं जो मैंने टाइप किए थे। मेरे पास एक सटीक आंसर की है।
मैंने स्क्रिप्ट में कठिन शब्दों को शामिल किया:
- तिमाही लेबल (Q3, Q2)
- प्रतिशत (5.2%, 6.8%)
- डॉलर की राशि ($16 से $19)
- तकनीकी शब्दावली (churn, cohort, SSO, p95)
- नाम और समय सीमा (deadlines)
परिणामों से मैंने जो सीखा वह यहाँ है:
तीनों टूल्स रॉ एक्यूरेसी (raw accuracy) में बेहतरीन हैं। Otter ने 99% एक्यूरेसी हासिल की। Fathom सबसे सटीक था। Granola ने अर्थ तो बनाए रखा लेकिन कुछ पंक्तियों को बिगाड़ दिया।
रॉ एक्यूरेसी गलत मीट्रिक है। यह केवल एक बेसलाइन है। वास्तविक अंतर दो क्षेत्रों में दिखाई देते हैं:
- सार्थक टोकन (Meaningful tokens): Otter की एक्यूरेसी अधिक थी लेकिन उसने "Q3" को "Q" में बदल दिया। एक बिजनेस मीटिंग में, यह गलती डेटा को खराब कर देती है।
- स्पीकर एट्रिब्यूशन (Speaker attribution): Otter एकमात्र ऐसा टूल था जिसने सही ढंग से पहचाना कि कब किसने बात की। Granola ने मुझे बिना नामों के टेक्स्ट की एक लंबी धारा दे दी।
"सबसे अच्छा" टूल आपके लक्ष्य पर निर्भर करता है:
- Otter का उपयोग करें यदि आपको यह जानने की आवश्यकता है कि किसने क्या कहा।
- Fathom का उपयोग करें यदि आपको सटीक नंबर और तकनीकी शब्दावली (jargon) की आवश्यकता है।
- Granola का उपयोग करें यदि आप व्यक्तिगत नोट्स के लिए बॉट-मुक्त अनुभव चाहते हैं।
आप इस पद्धति का उपयोग किसी भी स्पीच-टू-टेक्स्ट टेस्टिंग के लिए कर सकते हैं। एक दोहराने योग्य टेस्ट प्राप्त करने के लिए अपने ऑडियो को स्क्रिप्ट करें। यह देखने के लिए कि मॉडल कहाँ विफल होते हैं, कठिन शब्द जोड़ें। यह देखने के लिए कि क्या कोई वेंडर समय के साथ वास्तव में अपने मॉडल में सुधार करता है, उसी क्लिप का उपयोग करें।
सिंथेटिक ऑडियो साफ और आसान होता है। यह चार लोगों की एक अव्यवस्थित मीटिंग का सटीक सिमुलेशन नहीं है। लेकिन यह टूल्स की आपस में तुलना करने के लिए एक साफ बेसलाइन प्रदान करता है।
Optional learning community: https://t.me/GyaanSetuAi