રિયલ-ટાઇમ AI આસિસ્ટન્ટ્સ બનાવવામાં મુશ્કેલી કેમ આવે છે

રિયલ-ટાઇમ AI બનાવવું અઘરું છે. મોટાભાગની સિસ્ટમ્સ અલગ-અલગ ભાગોની સાંકળનો ઉપયોગ કરે છે. એક ભાગ અવાજને ઓળખે છે. બીજો ભાગ સ્પીચને ટેક્સ્ટમાં રૂપાંતરિત કરે છે. ત્રીજો ભાગ પ્રતિસાદ (response) જનરેટ કરે છે. ચોથો ભાગ ટેક્સ્ટને સ્પીચમાં રૂપાંતરિત કરે છે. પાંચમો ભાગ અવતાર રેન્ડર કરે છે.

આ ભાગો વચ્ચેના દરેક હેન્ડઓફ (handoff) થી વિલંબ (delay) વધે છે. દરેક સીમા (boundary) સમયની ભૂલો પેદા કરે છે. આના કારણે વાતચીત રોબોટિક લાગે છે.

Wan-Streamer v0.1 આ અભિગમને બદલે છે. અલગ-અલગ સેવાઓને બદલે, તે એક સ્ટ્રીમિંગ Transformer નો ઉપયોગ કરે છે. તે ઓડિયો, વિડિયો અને ટેક્સ્ટને એક સિંગલ લૂપ તરીકે ગણે છે.

સ્ટાન્ડર્ડ આસિસ્ટન્ટ્સ આ રીતે કામ કરે છે: • યુઝર બોલે છે. • સિસ્ટમ સ્પીચને ટેક્સ્ટમાં રૂપાંતરિત કરે છે. • મોડેલ ટેક્સ્ટ પ્રતિસાદ બનાવે છે. • સિસ્ટમ ટેક્સ્ટને સ્પીચમાં રૂપાંતરિત કરે છે. • અવતાર ઓડિયો સાથે હોઠનું સિંક (sync) કરવાનો પ્રયાસ કરે છે.

આ પદ્ધતિ નાજુક છે. જો એક સ્ટેપ ધીમું હોય, તો આખી સિસ્ટમ રાહ જુએ છે. જો યુઝર વચ્ચે બોલે (interrupt કરે), તો સિસ્ટમ ઘણીવાર તે નોટિસ કરવામાં નિષ્ફળ જાય છે.

Wan-Streamer ભાષા, ઓડિયો અને વિડિયોને સાથે મોડેલ કરીને આ સમસ્યાનો ઉકેલ લાવે છે. તે block-causal attention નો ઉપયોગ કરે છે. આ મોડેલને તેના સ્ટેટને સતત અપડેટ કરવાની મંજૂરી આપે છે. તે કાર્ય કરતા પહેલા આખું ટર્ન પૂરું થવાની રાહ જોતું નથી.

સિસ્ટમ thinker-performer સ્પ્લિટનો ઉપયોગ કરે છે: • Thinker પર્સેપ્શન (perception) અને સ્ટેટ અપડેટ્સ સંભાળે છે. • Performer જનરેશનના આગામી યુનિટને સંભાળે છે.

આ ઓવરલેપ લૂપના ભાગોને એકબીજાને રોકતા અટકાવે છે. મોડેલ અંદાજે 200 ms મોડેલ-સાઇડ લેટન્સી (latency) પ્રાપ્ત કરે છે. કુલ ઇન્ટરેક્શન લેટન્સી આશરે 550 ms રહે છે.

જ્યારે પ્રતિસાદનો સમય એક સેકન્ડથી ઓછો રહે છે, ત્યારે વાતચીત લાઈવ લાગે છે. આ નીચેના માટે મહત્વનું છે: • કસ્ટમર સપોર્ટ અવતાર. • ટ્યુટરિંગ એજન્ટ્સ. • ટેલિપ્રઝન્સ ટૂલ્સ. • ઇન્ટરેક્ટિવ ડેમો.

Wan-Streamer હજુ પણ વર્ઝન 0.1 માં છે. વિડિયો ક્વોલિટી ઓછી છે. એક સિંગલ મોડેલ સેફ્ટી અથવા વિશ્વસનીયતાનો ઉકેલ આપતું નથી. જોકે, તે સાબિત કરે છે કે ઇન્ટરેક્શન લૂપનું માળખું મહત્વનું છે.

જો તમે રિયલ-ટાઇમ AI બનાવો છો, તો આ પ્રશ્નો પૂછો: • શું તમે અલગ-અલગ મોડ્યુલ્સને એક બેકબોનમાં જોડી શકો છો? • તમારા પાઇપલાઇનમાં ક્યાં વિલંબ થાય છે? • વિલંબ ઘટાડવા માટે કયા ભાગો ઓવરલેપ થઈ શકે છે?

રિયલ-ટાઇમ AI માં, માહિતી જે રીતે આગળ વધે છે તે જ મુખ્ય પ્રોડક્ટ છે.

સ્ત્રોત: https://dev.to/prabhakar_chaudhary_7afe4/why-real-time-ai-assistants-are-hard-and-what-wan-streamer-v01-changes-3m70

વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi