𝗬𝗼𝘂 𝗖𝗮𝗻'𝘁 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗔𝗜 𝗪𝗶𝘁𝗵 𝗥𝗲𝗮𝗹 𝗠𝗲𝗲𝘁𝗶𝗻𝗴𝘀

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorial3 सप्ताह पहले2मिनट पढ़ें

आप वास्तविक मीटिंग्स के आधार पर AI का बेंचमार्किंग नहीं कर सकते

मैं सबसे अच्छा AI notetaker ढूँढना चाहता था। मैंने Granola, Fathom और Otter की तुलना की।

मैंने एक वास्तविक मीटिंग रिकॉर्ड करके शुरुआत की। मैंने उस रिकॉर्डिंग को तीनों टूल्स के माध्यम से चलाया। फिर मुझे एहसास हुआ कि मेरा प्रयोग बेकार था।

एक ट्रांसक्रिप्ट को स्कोर करने के लिए, आपको तुलना करने के लिए एक सही वर्ज़न की आवश्यकता होती है। एक वास्तविक मीटिंग में, जो कुछ भी हुआ उसका एकमात्र रिकॉर्ड ट्रांसक्रिप्ट ही होती है। मैं छात्रों के अपने ही उत्तरों का उपयोग करके परीक्षा का मूल्यांकन कर रहा था। मेरे पास कोई उत्तर कुंजी (answer key) नहीं थी।

यदि आपके पास 'ग्राउंड ट्रुथ' (ground truth) की कमी है, तो उसे खुद तैयार करें।

मैंने पहले दो लोगों की मीटिंग के लिए एक स्क्रिप्ट लिखी। मैंने उस टेक्स्ट को ऑडियो में बदलने के लिए ElevenLabs का उपयोग किया। अब, सटीक शब्द वही हैं जो मैंने टाइप किए थे। मेरे पास एक सटीक आंसर की है।

मैंने स्क्रिप्ट में कठिन शब्दों को शामिल किया:

तिमाही लेबल (Q3, Q2)
प्रतिशत (5.2%, 6.8%)
डॉलर की राशि ($16 से $19)
तकनीकी शब्दावली (churn, cohort, SSO, p95)
नाम और समय सीमा (deadlines)

परिणामों से मैंने जो सीखा वह यहाँ है:

तीनों टूल्स रॉ एक्यूरेसी (raw accuracy) में बेहतरीन हैं। Otter ने 99% एक्यूरेसी हासिल की। Fathom सबसे सटीक था। Granola ने अर्थ तो बनाए रखा लेकिन कुछ पंक्तियों को बिगाड़ दिया।

रॉ एक्यूरेसी गलत मीट्रिक है। यह केवल एक बेसलाइन है। वास्तविक अंतर दो क्षेत्रों में दिखाई देते हैं:

सार्थक टोकन (Meaningful tokens): Otter की एक्यूरेसी अधिक थी लेकिन उसने "Q3" को "Q" में बदल दिया। एक बिजनेस मीटिंग में, यह गलती डेटा को खराब कर देती है।
स्पीकर एट्रिब्यूशन (Speaker attribution): Otter एकमात्र ऐसा टूल था जिसने सही ढंग से पहचाना कि कब किसने बात की। Granola ने मुझे बिना नामों के टेक्स्ट की एक लंबी धारा दे दी।

"सबसे अच्छा" टूल आपके लक्ष्य पर निर्भर करता है:

Otter का उपयोग करें यदि आपको यह जानने की आवश्यकता है कि किसने क्या कहा।
Fathom का उपयोग करें यदि आपको सटीक नंबर और तकनीकी शब्दावली (jargon) की आवश्यकता है।
Granola का उपयोग करें यदि आप व्यक्तिगत नोट्स के लिए बॉट-मुक्त अनुभव चाहते हैं।

आप इस पद्धति का उपयोग किसी भी स्पीच-टू-टेक्स्ट टेस्टिंग के लिए कर सकते हैं। एक दोहराने योग्य टेस्ट प्राप्त करने के लिए अपने ऑडियो को स्क्रिप्ट करें। यह देखने के लिए कि मॉडल कहाँ विफल होते हैं, कठिन शब्द जोड़ें। यह देखने के लिए कि क्या कोई वेंडर समय के साथ वास्तव में अपने मॉडल में सुधार करता है, उसी क्लिप का उपयोग करें।

सिंथेटिक ऑडियो साफ और आसान होता है। यह चार लोगों की एक अव्यवस्थित मीटिंग का सटीक सिमुलेशन नहीं है। लेकिन यह टूल्स की आपस में तुलना करने के लिए एक साफ बेसलाइन प्रदान करता है।

Source: https://dev.to/tiennguyenftuk52/you-cant-benchmark-an-ai-notetaker-against-a-real-meeting-you-dont-know-the-right-answer-so-i-3llo

Optional learning community: https://t.me/GyaanSetuAi