तुम्ही प्रत्यक्ष मीटिंग्सद्वारे AI चे बेंचमार्किंग करू शकत नाही

मला सर्वोत्तम AI notetaker शोधायचा होता. मी Granola, Fathom आणि Otter यांची तुलना केली.

मी एका प्रत्यक्ष मीटिंगचे रेकॉर्डिंग करून सुरुवात केली. मी ते रेकॉर्डिंग तिन्ही टूल्समध्ये चालवून पाहिले. त्यानंतर मला जाणवले की माझा प्रयोग निरर्थक होता.

ट्रान्सक्रिप्टला (transcript) गुण देण्यासाठी, तुमच्याकडे तुलना करण्यासाठी एक अचूक आवृत्ती असणे आवश्यक आहे. प्रत्यक्ष मीटिंगमध्ये, काय घडले याचा एकमेव रेकॉर्ड म्हणजे ती ट्रान्सक्रिप्टच असते. मी विद्यार्थ्यांच्या स्वतःच्या उत्तरांचा वापर करूनच परीक्षेचे मूल्यांकन करत होतो. माझ्याकडे कोणतेही 'उत्तरतालिका' (answer key) नव्हती.

जर तुमच्याकडे 'ग्राउंड ट्रुथ' (ground truth) नसेल, तर ते स्वतः तयार करा.

मी प्रथम दोन व्यक्तींच्या मीटिंगसाठी एक स्क्रिप्ट लिहिली. त्या मजकुराचे ऑडिओमध्ये रूपांतर करण्यासाठी मी ElevenLabs वापरले. आता, नेमके शब्द तेच आहेत जे मी टाईप केले होते. माझ्याकडे एक परिपूर्ण उत्तरतालिका आहे.

मी त्या स्क्रिप्टमध्ये कठीण शब्द भरले:

  • तिमाहीचे लेबल (Q3, Q2)
  • टक्केवारी (5.2%, 6.8%)
  • डॉलरमधील आकडे ($16 ते $19)
  • तांत्रिक शब्द (churn, cohort, SSO, p95)
  • नावे आणि डेडलाईन्स (deadlines)

निकालांवरून मला काय शिकायला मिळाले ते खालीलप्रमाणे आहे:

तिन्ही टूल्स मूळ अचूकतेच्या (raw accuracy) बाबतीत उत्कृष्ट आहेत. Otter ने 99% अचूकता गाठली. Fathom सर्वात अचूक होते. Granola ने अर्थ कायम ठेवला पण काही ओळींमध्ये गोंधळ निर्माण केला.

मूळ अचूकता (Raw accuracy) हा चुकीचा निकष आहे. तो फक्त एक पायाभूत स्तर (baseline) आहे. खरे फरक दोन क्षेत्रांमध्ये दिसून येतात:

  1. अर्थपूर्ण टोकन्स (Meaningful tokens): Otter ची अचूकता जास्त होती पण त्याने "Q3" चे रूपांतर "Q" मध्ये केले. बिझनेस मीटिंगमध्ये अशी चूक डेटा खराब करते.
  2. स्पीकर अट्रिब्युशन (Speaker attribution): कोणी कधी बोलले हे अचूकपणे ओळखणारे Otter हे एकमेव टूल होते. Granola ने मला नावाशिवाय मजकुराचा एक मोठा प्रवाह दिला.

"सर्वोत्तम" टूल तुमच्या ध्येयावर अवलंबून असते:

  • जर तुम्हाला कोणी काय म्हटले हे जाणून घ्यायचे असेल, तर Otter वापरा.
  • जर तुम्हाला अचूक आकडे आणि तांत्रिक शब्द हवे असतील, तर Fathom वापरा.
  • जर तुम्हाला वैयक्तिक नोट्ससाठी बॉट-मुक्त अनुभव हवा असेल, तर Granola वापरा.

तुम्ही कोणत्याही स्पीच-टू-टेक्स्ट (speech-to-text) चाचणीसाठी या पद्धतीचा वापर करू शकता. पुन्हा पुन्हा करता येईल अशी चाचणी घेण्यासाठी तुमच्या ऑडिओची स्क्रिप्ट तयार करा. मॉडेल्स कुठे चुकतात हे पाहण्यासाठी कठीण शब्द जोडा. एखादा विक्रेता कालांतराने त्यांचे मॉडेल खरोखर सुधारतो का, हे पाहण्यासाठी त्याच क्लिपचा वापर करा.

सिंथेटिक ऑडिओ स्वच्छ आणि सोपा असतो. तो चार व्यक्तींच्या गोंधळलेल्या मीटिंगचे परिपूर्ण सिम्युलेशन (simulation) नाही. परंतु, टूल्सची एकमेकांशी तुलना करण्यासाठी तो एक स्वच्छ बेसलाईन प्रदान करतो.

स्रोत: https://dev.to/tiennguyenftuk52/you-cant-benchmark-an-ai-notetaker-against-a-real-meeting-you-dont-know-the-right-answer-so-i-3llo

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi