𝗜 𝗕𝘂𝗶𝗹𝘁 𝗟𝗶𝘃𝗲 𝗖𝗮𝗽𝘁𝗶𝗼𝗻𝘀 𝗶𝗻 𝘁𝗵𝗲 𝗕𝗿𝗼𝘄𝘀𝗲𝗿
உங்களுக்கு Whisper தேவையில்லை. உங்களுக்கு API key தேவையில்லை. உங்களுக்கு ஒரு சர்வர் தேவையில்லை.
Chrome மற்றும் Edge ஆகியவற்றில் உள்ளமைக்கப்பட்ட speech-to-text engine உள்ளது. வெறும் 30 வரிகள் கொண்ட குறியீட்டைப் (code) பயன்படுத்தி நான் இதைக் கொண்டு நேரலைத் தலைப்புகளை (live captions) உருவாக்கினேன்.
இங்கே முயற்சிக்கவும்: https://dev48v.infy.uk/solve/day8-live-captions.html
இந்தக் குறியீடு SpeechRecognition API-ஐப் பயன்படுத்துகிறது.
ஒரு சாதாரணத் தட்டச்சுப் பெட்டிக்கும் (dictation box) உண்மையான நேரலைத் தலைப்புகளுக்கும் இடையிலான வித்தியாசத்தை இரண்டு அமைப்புகள் (settings) ஏற்படுத்துகின்றன:
continuous = true: இது engine தொடர்ந்து கேட்டுக் கொண்டே இருக்கச் செய்கிறது.interimResults = true: நீங்கள் பேசும்போதே உங்கள் வார்த்தைகளைக் காட்டுகிறது.
இவை இல்லையென்றால், நீங்கள் நிறுத்திய பின்னரே engine உரையைத் திரையில் காட்டும். இவை இருந்தால், நீங்கள் பேசும்போதே யூகிக்கப்பட்ட வார்த்தைகளை நிகழ்நேரத்தில் (real time) காணலாம். இது அந்தத் தலைப்புகள் மின்னும் (flickering) விளைவை உருவாக்குகிறது.
நீண்ட நேரம் அமைதி நிலவினால் engine நின்றுவிடும். onend event-இல் அதை மீண்டும் தொடங்குவதன் மூலம் இதைச் சரிசெய்யலாம். இந்தச் சுழற்சி (loop), இடைவெளிகள் மற்றும் அமைதியான நேரங்களிலும் தலைப்புகள் தொடர்ந்து ஓடிக்கொண்டிருக்க உதவுகிறது.
இந்தச் செயல்பாட்டிற்காக Chrome ஆடியோவை Google சர்வர்களுக்கு அனுப்புகிறது. இதன் பொருள் உங்களுக்கு இணைய இணைப்பு (internet connection) தேவை.
இதை மைக்ரோஃபோனைத் தாண்டி பலவற்றுக்குப் பயன்படுத்தலாம். ஒரு வீடியோ கால் அல்லது YouTube டேப்பிலிருந்து ஆடியோவை நீங்கள் பெறலாம். ஆடியோவைப் பிடித்து அதை transcriber-க்கு அனுப்ப getDisplayMedia-ஐப் பயன்படுத்தவும்.
உலாவியில் (browser) பயன்படுத்தப்படாத பல அம்சங்கள் உள்ளன. நேரலைத் தலைப்புகள் மற்றும் குரல் கட்டளைகள் (voice commands) ஒரே ஒரு வரி குறியீட்டின் மூலம் கிடைக்கின்றன. உங்களுக்கு backend தேவையில்லை.
ஆதாரம்: https://dev.to/dev48v/i-built-live-captions-in-the-browser-no-api-key-no-server-4i7n