آپ حقیقی میٹنگز کے ذریعے AI کا بینچ مارک نہیں کر سکتے

Translated for your language. Read the original.

AI-assisted draft.

𝗬𝗼𝘂 𝗖𝗮𝗻'𝘁 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗔𝗜 𝗪𝗶𝘁𝗵 𝗥𝗲𝗮𝗹 𝗠𝗲𝗲𝘁𝗶𝗻𝗴𝘀

میں بہترین AI notetaker تلاش کرنا چاہتا تھا۔ میں نے Granola، Fathom، اور Otter کا موازنہ کیا۔

میں نے ایک حقیقی میٹنگ ریکارڈ کرنے سے آغاز کیا۔ میں نے اس ریکارڈنگ کو تینوں ٹولز سے گزارا۔ پھر مجھے احساس ہوا کہ میرا تجربہ بے کار تھا۔

کسی ٹرانسکرپٹ (transcript) کو نمبر دینے کے لیے، آپ کو موازنہ کرنے کے لیے ایک درست ورژن کی ضرورت ہوتی ہے۔ ایک حقیقی میٹنگ میں، جو کچھ ہوا اس کا واحد ریکارڈ خود ٹرانسکرپٹ ہی ہوتا ہے۔ میں طلباء کے اپنے ہی جوابات کو استعمال کرتے ہوئے امتحان کی گریڈنگ کر رہا تھا۔ میرے پاس کوئی جوابی کلید (answer key) نہیں تھی۔

اگر آپ کے پاس 'گراؤنڈ ٹرتھ' (ground truth) کی کمی ہے، تو اسے خود تیار کریں۔

میں نے پہلے دو افراد کی میٹنگ کے لیے ایک اسکرپٹ لکھا۔ میں نے اس ٹیکسٹ کو آڈیو میں تبدیل کرنے کے لیے ElevenLabs کا استعمال کیا۔ اب، درست الفاظ وہ ہیں جو میں نے خود ٹائپ کیے ہیں۔ میرے پاس ایک مکمل جوابی کلید موجود ہے۔

میں نے اسکرپٹ میں مشکل اصطلاحات شامل کیں:

کوارٹر لیبلز (Q3, Q2)
فیصد (5.2%, 6.8%)
ڈالر کی رقمیں ($16 سے $19)
اصطلاحات/جارجن (churn, cohort, SSO, p95)
نام اور ڈیڈ لائنز

نتائج سے میں نے یہ سیکھا:

تینوں ٹولز خام (raw) درستگی میں بہترین ہیں۔ Otter نے 99% درستگی حاصل کی۔ Fathom سب سے زیادہ درست تھا۔ Granola نے مفہوم برقرار رکھا لیکن چند لائنیں بگاڑ دیں۔

خام درستگی (Raw accuracy) غلط پیمانہ ہے۔ یہ صرف ایک بنیادی سطح (baseline) ہے۔ اصل فرق دو شعبوں میں نظر آتا ہے:

بامعنی ٹوکنز (Meaningful tokens): Otter کی درستگی زیادہ تھی لیکن اس نے "Q3" کو "Q" میں بدل دیا۔ ایک کاروباری میٹنگ میں، یہ غلطی ڈیٹا کو خراب کر دیتی ہے۔
اسپیکر ایٹریبیوشن (Speaker attribution): Otter واحد ٹول تھا جس نے درست طور پر پہچانا کہ کب کس نے بات کی۔ Granola نے مجھے ناموں کے بغیر متن کا ایک طویل سلسلہ فراہم کیا۔

"بہترین" ٹول کا انتخاب آپ کے مقصد پر منحصر ہے:

Otter استعمال کریں اگر آپ کو یہ جاننے کی ضرورت ہے کہ کس نے کیا کہا۔
Fathom استعمال کریں اگر آپ کو درست اعداد و شمار اور اصطلاحات (jargon) کی ضرورت ہے۔
Granola استعمال کریں اگر آپ انفرادی نوٹس کے لیے بوٹ سے پاک تجربہ چاہتے ہیں۔

آپ اس طریقے کو کسی بھی اسپیچ ٹو ٹیکسٹ (speech-to-text) ٹیسٹنگ کے لیے استعمال کر سکتے ہیں۔ ایک قابلِ اعادہ ٹیسٹ حاصل کرنے کے لیے اپنی آڈیو کا اسکرپٹ لکھیں۔ یہ دیکھنے کے لیے کہ ماڈلز کہاں ناکام ہوتے ہیں، مشکل الفاظ شامل کریں۔ یہ دیکھنے کے لیے کہ آیا کوئی وینڈر وقت کے ساتھ اپنے ماڈل میں واقعی بہتری لاتا ہے یا نہیں، اسی کلپ کو بار بار استعمال کریں۔

مصنوعی آڈیو (Synthetic audio) صاف ستھری اور آسان ہوتی ہے۔ یہ چار افراد کی ایک الجھی ہوئی میٹنگ کی مکمل نقل نہیں ہے۔ لیکن یہ ٹولز کا آپس میں موازنہ کرنے کے لیے ایک صاف ستھرا بیس لائن فراہم کرتی ہے۔

Source: https://dev.to/tiennguyenftuk52/you-cant-benchmark-an-ai-notetaker-against-a-real-meeting-you-dont-know-the-right-answer-so-i-3llo

Optional learning community: https://t.me/GyaanSetuAi