મેં બ્રાઉઝરમાં લાઈવ કેપ્શન્સ બનાવ્યા
તમારે Whisper ની જરૂર નથી. તમારે API key ની જરૂર નથી. તમારે સર્વરની જરૂર નથી.
Chrome અને Edge માં ઇન-બિલ્ટ speech-to-text એન્જિન હોય છે. મેં માત્ર 30 લાઇનની કોડનો ઉપયોગ કરીને તેના દ્વારા લાઈવ કેપ્શન્સ બનાવ્યા છે.
અહીં પ્રયાસ કરો: https://dev48v.infy.uk/solve/day8-live-captions.html
આ કોડ SpeechRecognition API નો ઉપયોગ કરે છે.
બે સેટિંગ્સ એક સાદા ડિક્ટેશન બોક્સ અને સાચા લાઈવ કેપ્શન્સ વચ્ચેનો તફાવત બનાવે છે:
continuous = true: આ એન્જિનને સતત સાંભળતું રાખે છે.interimResults = true: આ તમે બોલતા હોવ ત્યારે જ તમારા શબ્દો બતાવે છે.
આ વગર, એન્જિન તમે અટક્યા પછી જ ટેક્સ્ટ બતાવે છે. આનાથી, તમે રીઅલ-ટાઇમમાં અનુમાનિત શબ્દો જોઈ શકો છો. આનાથી કેપ્શનમાં તે ફ્લિકરિંગ (flickering) ઇફેક્ટ જોવા મળે છે.
જો એન્જિન લાંબા સમય સુધી શાંતિ સાંભળે તો તે બંધ થઈ જાય છે. તમે onend ઇવેન્ટમાં તેને ફરીથી શરૂ કરીને આ સમસ્યાનો ઉકેલ લાવી શકો છો. આ લૂપ વિરામ અને શાંત પળો દરમિયાન પણ કેપ્શન્સ ચાલુ રાખે છે.
આ પ્રક્રિયા માટે Chrome ઓડિયોને Google સર્વર્સ પર સ્ટ્રીમ કરે છે. આનો અર્થ એ છે કે તમારે ઇન્ટરનેટ કનેક્શનની જરૂર પડશે.
તમે આનો ઉપયોગ માઇક્રોફોન સિવાય અન્ય વસ્તુઓ માટે પણ કરી શકો છો. તમે વિડિયો કોલ અથવા YouTube ટેબમાંથી ઓડિયો કેપ્ચર કરી શકો છો. ઓડિયો મેળવવા અને તેને ટ્રાન્સક્રાઇબરને આપવા માટે getDisplayMedia નો ઉપયોગ કરો.
બ્રાઉઝરમાં ઘણી બધી બિનઉપયોગી સુવિધાઓ છે. લાઈવ કેપ્શન્સ અને વોઇસ કમાન્ડ માત્ર એક લાઇનની કોડ દ્વારા ઉપલબ્ધ છે. તમારે બેકએન્ડની જરૂર નથી.
સ્ત્રોત: https://dev.to/dev48v/i-built-live-captions-in-the-browser-no-api-key-no-server-4i7n