રીઅલ-ટાઇમ AI આસિસ્ટન્ટ્સ કેમ અઘરા છે?

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialગયા અઠવાડિયે2min read

રિયલ-ટાઇમ AI આસિસ્ટન્ટ્સ બનાવવામાં મુશ્કેલી કેમ આવે છે

રિયલ-ટાઇમ AI બનાવવું અઘરું છે. મોટાભાગની સિસ્ટમ્સ અલગ-અલગ ભાગોની સાંકળનો ઉપયોગ કરે છે. એક ભાગ અવાજને ઓળખે છે. બીજો ભાગ સ્પીચને ટેક્સ્ટમાં રૂપાંતરિત કરે છે. ત્રીજો ભાગ પ્રતિસાદ (response) જનરેટ કરે છે. ચોથો ભાગ ટેક્સ્ટને સ્પીચમાં રૂપાંતરિત કરે છે. પાંચમો ભાગ અવતાર રેન્ડર કરે છે.

આ ભાગો વચ્ચેના દરેક હેન્ડઓફ (handoff) થી વિલંબ (delay) વધે છે. દરેક સીમા (boundary) સમયની ભૂલો પેદા કરે છે. આના કારણે વાતચીત રોબોટિક લાગે છે.

Wan-Streamer v0.1 આ અભિગમને બદલે છે. અલગ-અલગ સેવાઓને બદલે, તે એક સ્ટ્રીમિંગ Transformer નો ઉપયોગ કરે છે. તે ઓડિયો, વિડિયો અને ટેક્સ્ટને એક સિંગલ લૂપ તરીકે ગણે છે.

સ્ટાન્ડર્ડ આસિસ્ટન્ટ્સ આ રીતે કામ કરે છે: • યુઝર બોલે છે. • સિસ્ટમ સ્પીચને ટેક્સ્ટમાં રૂપાંતરિત કરે છે. • મોડેલ ટેક્સ્ટ પ્રતિસાદ બનાવે છે. • સિસ્ટમ ટેક્સ્ટને સ્પીચમાં રૂપાંતરિત કરે છે. • અવતાર ઓડિયો સાથે હોઠનું સિંક (sync) કરવાનો પ્રયાસ કરે છે.

આ પદ્ધતિ નાજુક છે. જો એક સ્ટેપ ધીમું હોય, તો આખી સિસ્ટમ રાહ જુએ છે. જો યુઝર વચ્ચે બોલે (interrupt કરે), તો સિસ્ટમ ઘણીવાર તે નોટિસ કરવામાં નિષ્ફળ જાય છે.

Wan-Streamer ભાષા, ઓડિયો અને વિડિયોને સાથે મોડેલ કરીને આ સમસ્યાનો ઉકેલ લાવે છે. તે block-causal attention નો ઉપયોગ કરે છે. આ મોડેલને તેના સ્ટેટને સતત અપડેટ કરવાની મંજૂરી આપે છે. તે કાર્ય કરતા પહેલા આખું ટર્ન પૂરું થવાની રાહ જોતું નથી.

સિસ્ટમ thinker-performer સ્પ્લિટનો ઉપયોગ કરે છે: • Thinker પર્સેપ્શન (perception) અને સ્ટેટ અપડેટ્સ સંભાળે છે. • Performer જનરેશનના આગામી યુનિટને સંભાળે છે.

આ ઓવરલેપ લૂપના ભાગોને એકબીજાને રોકતા અટકાવે છે. મોડેલ અંદાજે 200 ms મોડેલ-સાઇડ લેટન્સી (latency) પ્રાપ્ત કરે છે. કુલ ઇન્ટરેક્શન લેટન્સી આશરે 550 ms રહે છે.

જ્યારે પ્રતિસાદનો સમય એક સેકન્ડથી ઓછો રહે છે, ત્યારે વાતચીત લાઈવ લાગે છે. આ નીચેના માટે મહત્વનું છે: • કસ્ટમર સપોર્ટ અવતાર. • ટ્યુટરિંગ એજન્ટ્સ. • ટેલિપ્રઝન્સ ટૂલ્સ. • ઇન્ટરેક્ટિવ ડેમો.

Wan-Streamer હજુ પણ વર્ઝન 0.1 માં છે. વિડિયો ક્વોલિટી ઓછી છે. એક સિંગલ મોડેલ સેફ્ટી અથવા વિશ્વસનીયતાનો ઉકેલ આપતું નથી. જોકે, તે સાબિત કરે છે કે ઇન્ટરેક્શન લૂપનું માળખું મહત્વનું છે.

જો તમે રિયલ-ટાઇમ AI બનાવો છો, તો આ પ્રશ્નો પૂછો: • શું તમે અલગ-અલગ મોડ્યુલ્સને એક બેકબોનમાં જોડી શકો છો? • તમારા પાઇપલાઇનમાં ક્યાં વિલંબ થાય છે? • વિલંબ ઘટાડવા માટે કયા ભાગો ઓવરલેપ થઈ શકે છે?

રિયલ-ટાઇમ AI માં, માહિતી જે રીતે આગળ વધે છે તે જ મુખ્ય પ્રોડક્ટ છે.

સ્ત્રોત: https://dev.to/prabhakar_chaudhary_7afe4/why-real-time-ai-assistants-are-hard-and-what-wan-streamer-v01-changes-3m70

વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi

રીઅલ-ટાઇમ AI આસિસ્ટન્ટ્સ કેમ અઘરા છે?

રિયલ-ટાઇમ AI આસિસ્ટન્ટ્સ બનાવવામાં મુશ્કેલી કેમ આવે છે

Continue reading

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗛𝗮𝘃𝗲 𝗔 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗣𝗿𝗼𝗯𝗹𝗲𝗺

LiveKit અને FastAPI સાથે રીઅલ-ટાઇમ વોઇસ AI બનાવવું

સેન્ડબોક્સથી આગળ: ટકાઉ AI એજન્ટ્સનું નિર્માણ