तुम्ही प्रत्यक्ष मीटिंग्सद्वारे AI चे बेंचमार्किंग करू शकत नाही
मला सर्वोत्तम AI notetaker शोधायचा होता. मी Granola, Fathom आणि Otter यांची तुलना केली.
मी एका प्रत्यक्ष मीटिंगचे रेकॉर्डिंग करून सुरुवात केली. मी ते रेकॉर्डिंग तिन्ही टूल्समध्ये चालवून पाहिले. त्यानंतर मला जाणवले की माझा प्रयोग निरर्थक होता.
ट्रान्सक्रिप्टला (transcript) गुण देण्यासाठी, तुमच्याकडे तुलना करण्यासाठी एक अचूक आवृत्ती असणे आवश्यक आहे. प्रत्यक्ष मीटिंगमध्ये, काय घडले याचा एकमेव रेकॉर्ड म्हणजे ती ट्रान्सक्रिप्टच असते. मी विद्यार्थ्यांच्या स्वतःच्या उत्तरांचा वापर करूनच परीक्षेचे मूल्यांकन करत होतो. माझ्याकडे कोणतेही 'उत्तरतालिका' (answer key) नव्हती.
जर तुमच्याकडे 'ग्राउंड ट्रुथ' (ground truth) नसेल, तर ते स्वतः तयार करा.
मी प्रथम दोन व्यक्तींच्या मीटिंगसाठी एक स्क्रिप्ट लिहिली. त्या मजकुराचे ऑडिओमध्ये रूपांतर करण्यासाठी मी ElevenLabs वापरले. आता, नेमके शब्द तेच आहेत जे मी टाईप केले होते. माझ्याकडे एक परिपूर्ण उत्तरतालिका आहे.
मी त्या स्क्रिप्टमध्ये कठीण शब्द भरले:
- तिमाहीचे लेबल (Q3, Q2)
- टक्केवारी (5.2%, 6.8%)
- डॉलरमधील आकडे ($16 ते $19)
- तांत्रिक शब्द (churn, cohort, SSO, p95)
- नावे आणि डेडलाईन्स (deadlines)
निकालांवरून मला काय शिकायला मिळाले ते खालीलप्रमाणे आहे:
तिन्ही टूल्स मूळ अचूकतेच्या (raw accuracy) बाबतीत उत्कृष्ट आहेत. Otter ने 99% अचूकता गाठली. Fathom सर्वात अचूक होते. Granola ने अर्थ कायम ठेवला पण काही ओळींमध्ये गोंधळ निर्माण केला.
मूळ अचूकता (Raw accuracy) हा चुकीचा निकष आहे. तो फक्त एक पायाभूत स्तर (baseline) आहे. खरे फरक दोन क्षेत्रांमध्ये दिसून येतात:
- अर्थपूर्ण टोकन्स (Meaningful tokens): Otter ची अचूकता जास्त होती पण त्याने "Q3" चे रूपांतर "Q" मध्ये केले. बिझनेस मीटिंगमध्ये अशी चूक डेटा खराब करते.
- स्पीकर अट्रिब्युशन (Speaker attribution): कोणी कधी बोलले हे अचूकपणे ओळखणारे Otter हे एकमेव टूल होते. Granola ने मला नावाशिवाय मजकुराचा एक मोठा प्रवाह दिला.
"सर्वोत्तम" टूल तुमच्या ध्येयावर अवलंबून असते:
- जर तुम्हाला कोणी काय म्हटले हे जाणून घ्यायचे असेल, तर Otter वापरा.
- जर तुम्हाला अचूक आकडे आणि तांत्रिक शब्द हवे असतील, तर Fathom वापरा.
- जर तुम्हाला वैयक्तिक नोट्ससाठी बॉट-मुक्त अनुभव हवा असेल, तर Granola वापरा.
तुम्ही कोणत्याही स्पीच-टू-टेक्स्ट (speech-to-text) चाचणीसाठी या पद्धतीचा वापर करू शकता. पुन्हा पुन्हा करता येईल अशी चाचणी घेण्यासाठी तुमच्या ऑडिओची स्क्रिप्ट तयार करा. मॉडेल्स कुठे चुकतात हे पाहण्यासाठी कठीण शब्द जोडा. एखादा विक्रेता कालांतराने त्यांचे मॉडेल खरोखर सुधारतो का, हे पाहण्यासाठी त्याच क्लिपचा वापर करा.
सिंथेटिक ऑडिओ स्वच्छ आणि सोपा असतो. तो चार व्यक्तींच्या गोंधळलेल्या मीटिंगचे परिपूर्ण सिम्युलेशन (simulation) नाही. परंतु, टूल्सची एकमेकांशी तुलना करण्यासाठी तो एक स्वच्छ बेसलाईन प्रदान करतो.
वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi