റിയൽ ടൈം AI അസിസ്റ്റന്റുകൾ നിർമ്മിക്കുന്നത് എന്തുകൊണ്ട് പ്രയാസകരമാകുന്നു?

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialകഴിഞ്ഞ ആഴ്‌ച2min read

റിയൽ-ടൈം AI അസിസ്റ്റന്റുകൾ നിർമ്മിക്കുന്നത് എന്തുകൊണ്ട് പ്രയാസകരമാകുന്നു

റിയൽ-ടൈം AI നിർമ്മിക്കുന്നത് പ്രയാസകരമാണ്. മിക്ക സിസ്റ്റങ്ങളും വ്യത്യസ്ത ഭാഗങ്ങളുടെ ഒരു ശൃംഖലയാണ് ഉപയോഗിക്കുന്നത്. ഒരു ഭാഗം ശബ്ദം തിരിച്ചറിയുന്നു. മറ്റൊന്ന് സംസാരത്തെ ടെക്സ്റ്റാക്കി മാറ്റുന്നു. മൂന്നാമത്തേത് ഒരു മറുപടി തയ്യാറാക്കുന്നു. നാലാമത്തേത് ടെക്സ്റ്റിനെ ശബ്ദമാക്കി മാറ്റുന്നു. അഞ്ചാമത്തേത് ഒരു അവതാറിനെ (avatar) രൂപപ്പെടുത്തുന്നു.

ഈ ഭാഗങ്ങൾ തമ്മിലുള്ള ഓരോ കൈമാറ്റവും കാലതാമസം (delay) ഉണ്ടാക്കുന്നു. ഓരോ അതിർവരമ്പുകളും സമയക്രമത്തിൽ പിഴവുകൾ സൃഷ്ടിക്കുന്നു. ഇത് സംഭാഷണത്തെ റോബോട്ടിക് ആയി തോന്നിപ്പിക്കുന്നു.

Wan-Streamer v0.1 ഈ സമീപനത്തെ മാറ്റുന്നു. പ്രത്യേക സേവനങ്ങൾ എന്നതിന് പകരം, ഇത് ഒരു സ്ട്രീമിംഗ് Transformer ഉപയോഗിക്കുന്നു. ഇത് ഓഡിയോ, വീഡിയോ, ടെക്സ്റ്റ് എന്നിവയെ ഒരൊറ്റ ലൂപ്പായി (loop) പരിഗണിക്കുന്നു.

സാധാരണ അസിസ്റ്റന്റുകൾ ഇപ്രകാരമാണ് പ്രവർത്തിക്കുന്നത്: • ഉപയോക്താവ് സംസാരിക്കുന്നു. • സിസ്റ്റം സംസാരത്തെ ടെക്സ്റ്റാക്കി മാറ്റുന്നു. • മോഡൽ ഒരു ടെക്സ്റ്റ് മറുപടി തയ്യാറാക്കുന്നു. • സിസ്റ്റം ടെക്സ്റ്റിനെ ശബ്ദമാക്കി മാറ്റുന്നു. • അവതാർ ശബ്ദത്തിനനുസരിച്ച് ചുണ്ടുകൾ ചലിപ്പിക്കാൻ ശ്രമിക്കുന്നു.

ഈ രീതി അസ്ഥിരമാണ്. ഒരു ഘട്ടം സാവധാനത്തിലായാൽ, മുഴുവൻ സിസ്റ്റവും കാത്തുനിൽക്കേണ്ടി വരുന്നു. ഉപയോക്താവ് സംസാരത്തിനിടയിൽ തടസ്സപ്പെടുത്തിയാൽ, അത് തിരിച്ചറിയാൻ സിസ്റ്റത്തിന് പലപ്പോഴും സാധിക്കാറില്ല.

ഭാഷ, ഓഡിയോ, വീഡിയോ എന്നിവയെ ഒന്നിച്ച് മോഡൽ ചെയ്യുന്നതിലൂടെ Wan-Streamer ഈ പ്രശ്നം പരിഹരിക്കുന്നു. ഇത് block-causal attention ഉപയോഗിക്കുന്നു. ഇത് മോഡലിന് അതിന്റെ അവസ്ഥ (state) തുടർച്ചയായി പുതുക്കാൻ അനുവദിക്കുന്നു. ഒരു ഘട്ടം പൂർത്തിയാകുന്നത് വരെ ഇത് കാത്തുനിൽക്കാതെ തന്നെ പ്രവർത്തിക്കുന്നു.

ഈ സിസ്റ്റം ഒരു thinker-performer വിഭജനം ഉപയോഗിക്കുന്നു: • thinker എന്നത് കാഴ്ചപ്പാടും (perception) സ്റ്റേറ്റ് അപ്‌ഡേറ്റുകളും കൈകാര്യം ചെയ്യുന്നു. • performer എന്നത് അടുത്ത ജനറേഷൻ യൂണിറ്റുകൾ കൈകാര്യം ചെയ്യുന്നു.

ഈ ഓവർലാപ്പ് ലൂപ്പിലെ ഭാഗങ്ങൾ പരസ്പരം തടസ്സപ്പെടുത്തുന്നത് ഒഴിവാക്കുന്നു. മോഡൽ ഏകദേശം 200 ms മോഡൽ-സൈഡ് ലേറ്റൻസി (latency) കൈവരിക്കുന്നു. മൊത്തത്തിലുള്ള ഇന്ററാക്ഷൻ ലേറ്റൻസി ഏകദേശം 550 ms ആയി നിലനിൽക്കുന്നു.

മറുപടി നൽകുന്ന സമയം ഒരു സെക്കൻഡിൽ താഴെയാണെങ്കിൽ, സംഭാഷണങ്ങൾ തത്സമയം (live) നടക്കുന്നതായി തോന്നും. ഇത് താഴെ പറയുന്നവയ്ക്ക് പ്രധാനമാണ്: • കസ്റ്റമർ സപ്പോർട്ട് അവതാറുകൾ. • ട്യൂട്ടറിംഗ് ഏജന്റുകൾ. • ടെലിപ്രസൻസ് ടൂളുകൾ. • ഇന്ററാക്ടീവ് ഡെമോകൾ.

Wan-Streamer ഇപ്പോഴും പതിപ്പ് 0.1-ൽ ആണ്. വീഡിയോ ഗുണനിലവാരം കുറവാണ്. ഒരു സിംഗിൾ മോഡൽ സുരക്ഷയോ വിശ്വാസ്യതയോ പൂർണ്ണമായും പരിഹരിക്കുന്നില്ല. എന്നിരുന്നാലും, ഇന്ററാക്ഷൻ ലൂപ്പിന്റെ ഘടന പ്രധാനമാണെന്ന് ഇത് തെളിയിക്കുന്നു.

നിങ്ങൾ റിയൽ-ടൈം AI നിർമ്മിക്കുകയാണെങ്കിൽ, ഈ ചോദ്യങ്ങൾ ചോദിക്കുക: • നിങ്ങൾക്ക് വ്യത്യസ്ത മോഡ്യൂളുകളെ ഒരു ബാക്ക്ബോണിലേക്ക് (backbone) കൂട്ടിച്ചേർക്കാൻ കഴിയുമോ? • നിങ്ങളുടെ പൈപ്പ്‌ലൈനിലെ കാലതാമസങ്ങൾ എവിടെയാണ്? • കാലതാമസം കുറയ്ക്കാൻ ഏതൊക്കെ ഭാഗങ്ങൾ ഓവർലാപ്പ് ചെയ്യാൻ കഴിയും?

റിയൽ-ടൈം AI-യിൽ, വിവരങ്ങൾ കൈമാറുന്ന രീതിയാണ് ഉൽപ്പന്നം.

Source: https://dev.to/prabhakar_chaudhary_7afe4/why-real-time-ai-assistants-are-hard-and-what-wan-streamer-v01-changes-3m70

Optional learning community: https://t.me/GyaanSetuAi

റിയൽ ടൈം AI അസിസ്റ്റന്റുകൾ നിർമ്മിക്കുന്നത് എന്തുകൊണ്ട് പ്രയാസകരമാകുന്നു?

റിയൽ-ടൈം AI അസിസ്റ്റന്റുകൾ നിർമ്മിക്കുന്നത് എന്തുകൊണ്ട് പ്രയാസകരമാകുന്നു

Continue reading

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗛𝗮𝘃𝗲 𝗔 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗣𝗿𝗼𝗯𝗹𝗲𝗺

Building Real Time Voice AI with LiveKit and FastAPI

സാൻഡ്‌ബോക്സുകൾക്ക് അപ്പുറം: ഈടുനിൽക്കുന്ന AI ഏജന്റുകളെ നിർമ്മിക്കുക