రియల్-టైమ్ AI అసిస్టెంట్లు తయారు చేయడం ఎందుకు కష్టమవుతుంది

రియల్-టైమ్ AIని నిర్మించడం కష్టమైన పని. చాలా వ్యవస్థలు వేర్వేరు భాగాల గొలుసును ఉపయోగిస్తాయి. ఒక భాగం వాయిస్‌ను గుర్తిస్తుంది. మరొకటి మాటలను టెక్స్ట్‌గా మారుస్తుంది. మూడవది ప్రతిస్పందనను రూపొందిస్తుంది. నాలుగవది టెక్స్ట్‌ను మాటలుగా మారుస్తుంది. ఐదవది అవతార్‌ను రెండర్ చేస్తుంది.

ఈ భాగాల మధ్య జరిగే ప్రతి మార్పిడి ఆలస్యాన్ని పెంచుతుంది. ప్రతి సరిహద్దు టైమింగ్ లోపాలకు దారితీస్తుంది. దీనివల్ల సంభాషణ రోబోటిక్‌గా అనిపిస్తుంది.

Wan-Streamer v0.1 ఈ విధానాన్ని మారుస్తుంది. వేర్వేరు సర్వీసులకు బదులుగా, ఇది ఒకే స్ట్రీమింగ్ Transformerను ఉపయోగిస్తుంది. ఇది ఆడియో, వీడియో మరియు టెక్స్ట్‌ను ఒకే లూప్‌గా పరిగణిస్తుంది.

సాధారణ అసిస్టెంట్లు ఈ విధంగా పనిచేస్తాయి: • వినియోగదారు మాట్లాడుతారు. • సిస్టమ్ మాటలను టెక్స్ట్‌గా మారుస్తుంది. • మోడల్ టెక్స్ట్ ప్రతిస్పందనను సృష్టిస్తుంది. • సిస్టమ్ టెక్స్ట్‌ను మాటలుగా మారుస్తుంది. • అవతార్ ఆడియోకు అనుగుణంగా పెదవుల కదలికలను (lip sync) సమన్వయం చేయడానికి ప్రయత్నిస్తుంది.

ఈ పద్ధతి బలహీనమైనది. ఒక దశ నెమ్మదిగా ఉన్నా, మొత్తం వ్యవస్థ వేచి ఉండాల్సి వస్తుంది. వినియోగదారు మధ్యలో అడ్డుపడితే, సిస్టమ్ తరచుగా దానిని గమనించలేకపోతుంది.

Wan-Streamer భాష, ఆడియో మరియు వీడియోలను కలిపి మోడలింగ్ చేయడం ద్వారా దీనిని పరిష్కరిస్తుంది. ఇది block-causal attentionను ఉపయోగిస్తుంది. ఇది మోడల్ తన స్థితిని (state) నిరంతరం అప్‌డేట్ చేయడానికి అనుమతిస్తుంది. ఇది ఒక పూర్తి టర్న్ ముగిసే వరకు వేచి ఉండకుండానే స్పందిస్తుంది.

ఈ వ్యవస్థ thinker-performer విభజనను ఉపయోగిస్తుంది: • Thinker పర్సెప్షన్ (perception) మరియు స్టేట్ అప్‌డేట్‌లను నిర్వహిస్తుంది. • Performer తదుపరి జనరేషన్ యూనిట్‌ను నిర్వహిస్తుంది.

ఈ ఓవర్‌ల్యాప్ వల్ల లూప్‌లోని భాగాలు ఒకదానికొకటి అడ్డుపడవు. ఈ మోడల్ సుమారు 200 ms మోడల్-సైడ్ లేటెన్సీని సాధిస్తుంది. మొత్తం ఇంటరాక్షన్ లేటెన్సీ సుమారు 550 ms వద్ద ఉంటుంది.

ప్రతిస్పందన సమయం ఒక సెకను కంటే తక్కువగా ఉన్నప్పుడు, సంభాషణలు ప్రత్యక్షంగా ఉన్నట్లు అనిపిస్తాయి. ఇది వీటికి చాలా ముఖ్యం: • కస్టమర్ సపోర్ట్ అవతార్‌లు. • ట్యూటరింగ్ ఏజెంట్లు. • టెలిప్రెజెన్స్ టూల్స్. • ఇంటరాక్టివ్ డెమోలు.

Wan-Streamer ఇంకా వెర్షన్ 0.1 దశలోనే ఉంది. వీడియో నాణ్యత తక్కువగా ఉంది. ఒకే మోడల్ భద్రత లేదా విశ్వసనీయత సమస్యలను పరిష్కరించదు. అయినప్పటికీ, ఇంటరాక్షన్ లూప్ యొక్క నిర్మాణం ఎంత ముఖ్యమో ఇది నిరూపిస్తుంది.

మీరు రియల్-టైమ్ AIని నిర్మిస్తుంటే, ఈ ప్రశ్నలను వేసుకోండి: • మీరు వేర్వేరు మాడ్యూల్స్‌ను ఒకే బ్యాక్‌బోన్‌గా (backbone) విలీనం చేయగలరా? • మీ పైప్‌లైన్‌లో ఎక్కడ ఆలస్యం జరుగుతోంది? • ఆలస్యాన్ని తగ్గించడానికి ఏ భాగాలను ఓవర్‌ల్యాప్ చేయవచ్చు?

రియల్-టైమ్ AIలో, సమాచారం ప్రవహించే విధానమే అసలైన ఉత్పత్తి.

Source: https://dev.to/prabhakar_chaudhary_7afe4/why-real-time-ai-assistants-are-hard-and-what-wan-streamer-v01-changes-3m70

Optional learning community: https://t.me/GyaanSetuAi