రియల్-టైమ్ AI అసిస్టెంట్లు తయారు చేయడం ఎందుకు కష్టమవుతుంది
రియల్-టైమ్ AIని నిర్మించడం కష్టమైన పని. చాలా వ్యవస్థలు వేర్వేరు భాగాల గొలుసును ఉపయోగిస్తాయి. ఒక భాగం వాయిస్ను గుర్తిస్తుంది. మరొకటి మాటలను టెక్స్ట్గా మారుస్తుంది. మూడవది ప్రతిస్పందనను రూపొందిస్తుంది. నాలుగవది టెక్స్ట్ను మాటలుగా మారుస్తుంది. ఐదవది అవతార్ను రెండర్ చేస్తుంది.
ఈ భాగాల మధ్య జరిగే ప్రతి మార్పిడి ఆలస్యాన్ని పెంచుతుంది. ప్రతి సరిహద్దు టైమింగ్ లోపాలకు దారితీస్తుంది. దీనివల్ల సంభాషణ రోబోటిక్గా అనిపిస్తుంది.
Wan-Streamer v0.1 ఈ విధానాన్ని మారుస్తుంది. వేర్వేరు సర్వీసులకు బదులుగా, ఇది ఒకే స్ట్రీమింగ్ Transformerను ఉపయోగిస్తుంది. ఇది ఆడియో, వీడియో మరియు టెక్స్ట్ను ఒకే లూప్గా పరిగణిస్తుంది.
సాధారణ అసిస్టెంట్లు ఈ విధంగా పనిచేస్తాయి: • వినియోగదారు మాట్లాడుతారు. • సిస్టమ్ మాటలను టెక్స్ట్గా మారుస్తుంది. • మోడల్ టెక్స్ట్ ప్రతిస్పందనను సృష్టిస్తుంది. • సిస్టమ్ టెక్స్ట్ను మాటలుగా మారుస్తుంది. • అవతార్ ఆడియోకు అనుగుణంగా పెదవుల కదలికలను (lip sync) సమన్వయం చేయడానికి ప్రయత్నిస్తుంది.
ఈ పద్ధతి బలహీనమైనది. ఒక దశ నెమ్మదిగా ఉన్నా, మొత్తం వ్యవస్థ వేచి ఉండాల్సి వస్తుంది. వినియోగదారు మధ్యలో అడ్డుపడితే, సిస్టమ్ తరచుగా దానిని గమనించలేకపోతుంది.
Wan-Streamer భాష, ఆడియో మరియు వీడియోలను కలిపి మోడలింగ్ చేయడం ద్వారా దీనిని పరిష్కరిస్తుంది. ఇది block-causal attentionను ఉపయోగిస్తుంది. ఇది మోడల్ తన స్థితిని (state) నిరంతరం అప్డేట్ చేయడానికి అనుమతిస్తుంది. ఇది ఒక పూర్తి టర్న్ ముగిసే వరకు వేచి ఉండకుండానే స్పందిస్తుంది.
ఈ వ్యవస్థ thinker-performer విభజనను ఉపయోగిస్తుంది: • Thinker పర్సెప్షన్ (perception) మరియు స్టేట్ అప్డేట్లను నిర్వహిస్తుంది. • Performer తదుపరి జనరేషన్ యూనిట్ను నిర్వహిస్తుంది.
ఈ ఓవర్ల్యాప్ వల్ల లూప్లోని భాగాలు ఒకదానికొకటి అడ్డుపడవు. ఈ మోడల్ సుమారు 200 ms మోడల్-సైడ్ లేటెన్సీని సాధిస్తుంది. మొత్తం ఇంటరాక్షన్ లేటెన్సీ సుమారు 550 ms వద్ద ఉంటుంది.
ప్రతిస్పందన సమయం ఒక సెకను కంటే తక్కువగా ఉన్నప్పుడు, సంభాషణలు ప్రత్యక్షంగా ఉన్నట్లు అనిపిస్తాయి. ఇది వీటికి చాలా ముఖ్యం: • కస్టమర్ సపోర్ట్ అవతార్లు. • ట్యూటరింగ్ ఏజెంట్లు. • టెలిప్రెజెన్స్ టూల్స్. • ఇంటరాక్టివ్ డెమోలు.
Wan-Streamer ఇంకా వెర్షన్ 0.1 దశలోనే ఉంది. వీడియో నాణ్యత తక్కువగా ఉంది. ఒకే మోడల్ భద్రత లేదా విశ్వసనీయత సమస్యలను పరిష్కరించదు. అయినప్పటికీ, ఇంటరాక్షన్ లూప్ యొక్క నిర్మాణం ఎంత ముఖ్యమో ఇది నిరూపిస్తుంది.
మీరు రియల్-టైమ్ AIని నిర్మిస్తుంటే, ఈ ప్రశ్నలను వేసుకోండి: • మీరు వేర్వేరు మాడ్యూల్స్ను ఒకే బ్యాక్బోన్గా (backbone) విలీనం చేయగలరా? • మీ పైప్లైన్లో ఎక్కడ ఆలస్యం జరుగుతోంది? • ఆలస్యాన్ని తగ్గించడానికి ఏ భాగాలను ఓవర్ల్యాప్ చేయవచ్చు?
రియల్-టైమ్ AIలో, సమాచారం ప్రవహించే విధానమే అసలైన ఉత్పత్తి.
Optional learning community: https://t.me/GyaanSetuAi
