റിയൽ-ടൈം AI അസിസ്റ്റന്റുകൾ നിർമ്മിക്കുന്നത് എന്തുകൊണ്ട് പ്രയാസകരമാകുന്നു

റിയൽ-ടൈം AI നിർമ്മിക്കുന്നത് പ്രയാസകരമാണ്. മിക്ക സിസ്റ്റങ്ങളും വ്യത്യസ്ത ഭാഗങ്ങളുടെ ഒരു ശൃംഖലയാണ് ഉപയോഗിക്കുന്നത്. ഒരു ഭാഗം ശബ്ദം തിരിച്ചറിയുന്നു. മറ്റൊന്ന് സംസാരത്തെ ടെക്സ്റ്റാക്കി മാറ്റുന്നു. മൂന്നാമത്തേത് ഒരു മറുപടി തയ്യാറാക്കുന്നു. നാലാമത്തേത് ടെക്സ്റ്റിനെ ശബ്ദമാക്കി മാറ്റുന്നു. അഞ്ചാമത്തേത് ഒരു അവതാറിനെ (avatar) രൂപപ്പെടുത്തുന്നു.

ഈ ഭാഗങ്ങൾ തമ്മിലുള്ള ഓരോ കൈമാറ്റവും കാലതാമസം (delay) ഉണ്ടാക്കുന്നു. ഓരോ അതിർവരമ്പുകളും സമയക്രമത്തിൽ പിഴവുകൾ സൃഷ്ടിക്കുന്നു. ഇത് സംഭാഷണത്തെ റോബോട്ടിക് ആയി തോന്നിപ്പിക്കുന്നു.

Wan-Streamer v0.1 ഈ സമീപനത്തെ മാറ്റുന്നു. പ്രത്യേക സേവനങ്ങൾ എന്നതിന് പകരം, ഇത് ഒരു സ്ട്രീമിംഗ് Transformer ഉപയോഗിക്കുന്നു. ഇത് ഓഡിയോ, വീഡിയോ, ടെക്സ്റ്റ് എന്നിവയെ ഒരൊറ്റ ലൂപ്പായി (loop) പരിഗണിക്കുന്നു.

സാധാരണ അസിസ്റ്റന്റുകൾ ഇപ്രകാരമാണ് പ്രവർത്തിക്കുന്നത്: • ഉപയോക്താവ് സംസാരിക്കുന്നു. • സിസ്റ്റം സംസാരത്തെ ടെക്സ്റ്റാക്കി മാറ്റുന്നു. • മോഡൽ ഒരു ടെക്സ്റ്റ് മറുപടി തയ്യാറാക്കുന്നു. • സിസ്റ്റം ടെക്സ്റ്റിനെ ശബ്ദമാക്കി മാറ്റുന്നു. • അവതാർ ശബ്ദത്തിനനുസരിച്ച് ചുണ്ടുകൾ ചലിപ്പിക്കാൻ ശ്രമിക്കുന്നു.

ഈ രീതി അസ്ഥിരമാണ്. ഒരു ഘട്ടം സാവധാനത്തിലായാൽ, മുഴുവൻ സിസ്റ്റവും കാത്തുനിൽക്കേണ്ടി വരുന്നു. ഉപയോക്താവ് സംസാരത്തിനിടയിൽ തടസ്സപ്പെടുത്തിയാൽ, അത് തിരിച്ചറിയാൻ സിസ്റ്റത്തിന് പലപ്പോഴും സാധിക്കാറില്ല.

ഭാഷ, ഓഡിയോ, വീഡിയോ എന്നിവയെ ഒന്നിച്ച് മോഡൽ ചെയ്യുന്നതിലൂടെ Wan-Streamer ഈ പ്രശ്നം പരിഹരിക്കുന്നു. ഇത് block-causal attention ഉപയോഗിക്കുന്നു. ഇത് മോഡലിന് അതിന്റെ അവസ്ഥ (state) തുടർച്ചയായി പുതുക്കാൻ അനുവദിക്കുന്നു. ഒരു ഘട്ടം പൂർത്തിയാകുന്നത് വരെ ഇത് കാത്തുനിൽക്കാതെ തന്നെ പ്രവർത്തിക്കുന്നു.

ഈ സിസ്റ്റം ഒരു thinker-performer വിഭജനം ഉപയോഗിക്കുന്നു: • thinker എന്നത് കാഴ്ചപ്പാടും (perception) സ്റ്റേറ്റ് അപ്‌ഡേറ്റുകളും കൈകാര്യം ചെയ്യുന്നു. • performer എന്നത് അടുത്ത ജനറേഷൻ യൂണിറ്റുകൾ കൈകാര്യം ചെയ്യുന്നു.

ഈ ഓവർലാപ്പ് ലൂപ്പിലെ ഭാഗങ്ങൾ പരസ്പരം തടസ്സപ്പെടുത്തുന്നത് ഒഴിവാക്കുന്നു. മോഡൽ ഏകദേശം 200 ms മോഡൽ-സൈഡ് ലേറ്റൻസി (latency) കൈവരിക്കുന്നു. മൊത്തത്തിലുള്ള ഇന്ററാക്ഷൻ ലേറ്റൻസി ഏകദേശം 550 ms ആയി നിലനിൽക്കുന്നു.

മറുപടി നൽകുന്ന സമയം ഒരു സെക്കൻഡിൽ താഴെയാണെങ്കിൽ, സംഭാഷണങ്ങൾ തത്സമയം (live) നടക്കുന്നതായി തോന്നും. ഇത് താഴെ പറയുന്നവയ്ക്ക് പ്രധാനമാണ്: • കസ്റ്റമർ സപ്പോർട്ട് അവതാറുകൾ. • ട്യൂട്ടറിംഗ് ഏജന്റുകൾ. • ടെലിപ്രസൻസ് ടൂളുകൾ. • ഇന്ററാക്ടീവ് ഡെമോകൾ.

Wan-Streamer ഇപ്പോഴും പതിപ്പ് 0.1-ൽ ആണ്. വീഡിയോ ഗുണനിലവാരം കുറവാണ്. ഒരു സിംഗിൾ മോഡൽ സുരക്ഷയോ വിശ്വാസ്യതയോ പൂർണ്ണമായും പരിഹരിക്കുന്നില്ല. എന്നിരുന്നാലും, ഇന്ററാക്ഷൻ ലൂപ്പിന്റെ ഘടന പ്രധാനമാണെന്ന് ഇത് തെളിയിക്കുന്നു.

നിങ്ങൾ റിയൽ-ടൈം AI നിർമ്മിക്കുകയാണെങ്കിൽ, ഈ ചോദ്യങ്ങൾ ചോദിക്കുക: • നിങ്ങൾക്ക് വ്യത്യസ്ത മോഡ്യൂളുകളെ ഒരു ബാക്ക്ബോണിലേക്ക് (backbone) കൂട്ടിച്ചേർക്കാൻ കഴിയുമോ? • നിങ്ങളുടെ പൈപ്പ്‌ലൈനിലെ കാലതാമസങ്ങൾ എവിടെയാണ്? • കാലതാമസം കുറയ്ക്കാൻ ഏതൊക്കെ ഭാഗങ്ങൾ ഓവർലാപ്പ് ചെയ്യാൻ കഴിയും?

റിയൽ-ടൈം AI-യിൽ, വിവരങ്ങൾ കൈമാറുന്ന രീതിയാണ് ഉൽപ്പന്നം.

Source: https://dev.to/prabhakar_chaudhary_7afe4/why-real-time-ai-assistants-are-hard-and-what-wan-streamer-v01-changes-3m70

Optional learning community: https://t.me/GyaanSetuAi