𝗬𝗼𝘂 𝗖𝗮𝗻'𝘁 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗔𝗜 𝗪𝗶𝘁𝗵 𝗥𝗲𝗮𝗹 𝗠𝗲𝗲𝘁𝗶𝗻𝗴𝘀

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial३ आठवड्यांपूर्वी2min read

तुम्ही प्रत्यक्ष मीटिंग्सद्वारे AI चे बेंचमार्किंग करू शकत नाही

मला सर्वोत्तम AI notetaker शोधायचा होता. मी Granola, Fathom आणि Otter यांची तुलना केली.

मी एका प्रत्यक्ष मीटिंगचे रेकॉर्डिंग करून सुरुवात केली. मी ते रेकॉर्डिंग तिन्ही टूल्समध्ये चालवून पाहिले. त्यानंतर मला जाणवले की माझा प्रयोग निरर्थक होता.

ट्रान्सक्रिप्टला (transcript) गुण देण्यासाठी, तुमच्याकडे तुलना करण्यासाठी एक अचूक आवृत्ती असणे आवश्यक आहे. प्रत्यक्ष मीटिंगमध्ये, काय घडले याचा एकमेव रेकॉर्ड म्हणजे ती ट्रान्सक्रिप्टच असते. मी विद्यार्थ्यांच्या स्वतःच्या उत्तरांचा वापर करूनच परीक्षेचे मूल्यांकन करत होतो. माझ्याकडे कोणतेही 'उत्तरतालिका' (answer key) नव्हती.

जर तुमच्याकडे 'ग्राउंड ट्रुथ' (ground truth) नसेल, तर ते स्वतः तयार करा.

मी प्रथम दोन व्यक्तींच्या मीटिंगसाठी एक स्क्रिप्ट लिहिली. त्या मजकुराचे ऑडिओमध्ये रूपांतर करण्यासाठी मी ElevenLabs वापरले. आता, नेमके शब्द तेच आहेत जे मी टाईप केले होते. माझ्याकडे एक परिपूर्ण उत्तरतालिका आहे.

मी त्या स्क्रिप्टमध्ये कठीण शब्द भरले:

तिमाहीचे लेबल (Q3, Q2)
टक्केवारी (5.2%, 6.8%)
डॉलरमधील आकडे ($16 ते $19)
तांत्रिक शब्द (churn, cohort, SSO, p95)
नावे आणि डेडलाईन्स (deadlines)

निकालांवरून मला काय शिकायला मिळाले ते खालीलप्रमाणे आहे:

तिन्ही टूल्स मूळ अचूकतेच्या (raw accuracy) बाबतीत उत्कृष्ट आहेत. Otter ने 99% अचूकता गाठली. Fathom सर्वात अचूक होते. Granola ने अर्थ कायम ठेवला पण काही ओळींमध्ये गोंधळ निर्माण केला.

मूळ अचूकता (Raw accuracy) हा चुकीचा निकष आहे. तो फक्त एक पायाभूत स्तर (baseline) आहे. खरे फरक दोन क्षेत्रांमध्ये दिसून येतात:

अर्थपूर्ण टोकन्स (Meaningful tokens): Otter ची अचूकता जास्त होती पण त्याने "Q3" चे रूपांतर "Q" मध्ये केले. बिझनेस मीटिंगमध्ये अशी चूक डेटा खराब करते.
स्पीकर अट्रिब्युशन (Speaker attribution): कोणी कधी बोलले हे अचूकपणे ओळखणारे Otter हे एकमेव टूल होते. Granola ने मला नावाशिवाय मजकुराचा एक मोठा प्रवाह दिला.

"सर्वोत्तम" टूल तुमच्या ध्येयावर अवलंबून असते:

जर तुम्हाला कोणी काय म्हटले हे जाणून घ्यायचे असेल, तर Otter वापरा.
जर तुम्हाला अचूक आकडे आणि तांत्रिक शब्द हवे असतील, तर Fathom वापरा.
जर तुम्हाला वैयक्तिक नोट्ससाठी बॉट-मुक्त अनुभव हवा असेल, तर Granola वापरा.

तुम्ही कोणत्याही स्पीच-टू-टेक्स्ट (speech-to-text) चाचणीसाठी या पद्धतीचा वापर करू शकता. पुन्हा पुन्हा करता येईल अशी चाचणी घेण्यासाठी तुमच्या ऑडिओची स्क्रिप्ट तयार करा. मॉडेल्स कुठे चुकतात हे पाहण्यासाठी कठीण शब्द जोडा. एखादा विक्रेता कालांतराने त्यांचे मॉडेल खरोखर सुधारतो का, हे पाहण्यासाठी त्याच क्लिपचा वापर करा.

सिंथेटिक ऑडिओ स्वच्छ आणि सोपा असतो. तो चार व्यक्तींच्या गोंधळलेल्या मीटिंगचे परिपूर्ण सिम्युलेशन (simulation) नाही. परंतु, टूल्सची एकमेकांशी तुलना करण्यासाठी तो एक स्वच्छ बेसलाईन प्रदान करतो.

स्रोत: https://dev.to/tiennguyenftuk52/you-cant-benchmark-an-ai-notetaker-against-a-real-meeting-you-dont-know-the-right-answer-so-i-3llo

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi