તમે વાસ્તવિક મીટિંગ્સ દ્વારા AI નું બેન્ચમાર્કિંગ કરી શકતા નથી

મારે શ્રેષ્ઠ AI નોટટેકર શોધવો હતો. મેં Granola, Fathom અને Otter ની સરખામણી કરી.

મેં એક વાસ્તવિક મીટિંગ રેકોર્ડ કરીને શરૂઆત કરી. મેં તે રેકોર્ડિંગ ત્રણેય ટૂલ્સ દ્વારા ચલાવ્યું. પછી મને સમજાયું કે મારો પ્રયોગ નિરર્થક હતો.

ટ્રાન્સક્રિપ્ટને સ્કોર કરવા માટે, તમારી પાસે તેની સરખામણી કરવા માટે એક સાચું વર્ઝન હોવું જરૂરી છે. વાસ્તવિક મીટિંગમાં, જે કંઈ પણ થયું તેનો એકમાત્ર રેકોર્ડ ટ્રાન્સક્રિપ્ટ પોતે જ હોય છે. હું વિદ્યાર્થીઓના પોતાના જવાબોનો ઉપયોગ કરીને પરીક્ષાનું મૂલ્યાંકન કરી રહ્યો હતો. મારી પાસે કોઈ આન્સર કી (જવાબની ચાવી) નહોતી.

જો તમારી પાસે ગ્રાઉન્ડ ટ્રુથ (ground truth) નો અભાવ હોય, તો તેને જાતે બનાવો.

મેં પહેલા બે વ્યક્તિઓની મીટિંગ માટે એક સ્ક્રિપ્ટ લખી. મેં તે ટેક્સ્ટને ઓડિયોમાં બદલવા માટે ElevenLabs નો ઉપયોગ કર્યો. હવે, ચોક્કસ શબ્દો એ છે જે મેં ટાઈપ કર્યા છે. મારી પાસે એક પરફેક્ટ આન્સર કી છે.

મેં સ્ક્રિપ્ટમાં મુશ્કેલ શબ્દો ઉમેર્યા:

  • ક્વાર્ટર લેબલ્સ (Q3, Q2)
  • ટકાવારી (5.2%, 6.8%)
  • ડોલરના આંકડા ($16 થી $19)
  • જાર્ગન (churn, cohort, SSO, p95)
  • નામો અને ડેડલાઇન્સ

પરિણામોમાંથી મેં જે શીખ્યું તે અહીં છે:

ત્રણેય ટૂલ્સ કાચી ચોકસાઈ (raw accuracy) માં ઉત્કૃષ્ટ છે. Otter એ 99% ચોકસાઈ મેળવી. Fathom સૌથી સચોટ હતું. Granola એ અર્થ જાળવી રાખ્યો પરંતુ કેટલીક લાઈનો બગાડી નાખી.

કાચી ચોકસાઈ એ ખોટું માપદંડ છે. તે માત્ર એક બેઝલાઇન છે. વાસ્તવિક તફાવત બે ક્ષેત્રોમાં જોવા મળે છે:

  1. અર્થપૂર્ણ ટોકન્સ: Otter ની ચોકસાઈ વધુ હતી પરંતુ તેણે "Q3" ને "Q" માં બદલી નાખ્યું. બિઝનેસ મીટિંગમાં, આ ભૂલ ડેટા બગાડી નાખે છે.
  2. સ્પીકર એટ્રિબ્યુશન: Otter એકમાત્ર એવું ટૂલ હતું જેણે કોણે ક્યારે બોલ્યું તે સાચી રીતે ઓળખ્યું. Granola એ મને નામ વગરના ટેક્સ્ટનો એક લાંબો પ્રવાહ આપ્યો.

"શ્રેષ્ઠ" ટૂલ તમારા લક્ષ્ય પર આધાર રાખે છે:

  • જો તમારે જાણવું હોય કે કોણે શું કહ્યું, તો Otter નો ઉપયોગ કરો.
  • જો તમારે પરફેક્ટ આંકડા અને જાર્ગન ની જરૂર હોય, તો Fathom નો ઉપયોગ કરો.
  • જો તમે વ્યક્તિગત નોટ્સ માટે બોટ-ફ્રી અનુભવ ઈચ્છતા હોવ, તો Granola નો ઉપયોગ કરો.

તમે કોઈપણ સ્પીચ-ટુ-ટેક્સ્ટ ટેસ્ટિંગ માટે આ પદ્ધતિનો ઉપયોગ કરી શકો છો. પુનરાવર્તિત ટેસ્ટ મેળવવા માટે તમારા ઓડિયોને સ્ક્રિપ્ટ કરો. મોડલ્સ ક્યાં નિષ્ફળ જાય છે તે જોવા માટે મુશ્કેલ શબ્દો ઉમેરો. કોઈ વેન્ડર સમય જતાં ખરેખર તેમના મોડલમાં સુધારો કરે છે કે નહીં તે જોવા માટે સમાન ક્લિપનો ઉપયોગ કરો.

સિન્થેટિક ઓડિયો સ્વચ્છ અને સરળ છે. તે ચાર વ્યક્તિઓની અસ્તવ્યસ્ત મીટિંગનું સંપૂર્ણ સિમ્યુલેશન નથી. પરંતુ તે ટૂલ્સની એકબીજા સાથે સરખામણી કરવા માટે એક સ્વચ્છ બેઝલાઇન પૂરી પાડે છે.

સ્ત્રોત: https://dev.to/tiennguyenftuk52/you-cant-benchmark-an-ai-notetaker-against-a-real-meeting-you-dont-know-the-right-answer-so-i-3llo

વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi