למה קשה לבנות עוזרות AI בזמן אמת

בניית AI בזמן אמת היא משימה קשה. רוב המערכות משתמשות בשרשרת של חלקים נפרדים. חלק אחד מזהה קול. חלק אחר הופך דיבור לטקסט. שלישי מייצר תגובה. רביעי הופך טקסט לדיבור. חמישי מרנדר אוואטר.

כל העברת נתונים בין החלקים הללו מוסיפה עיכוב. כל גבול יוצר שגיאות תזמון. זה גורם לאינטראקציה להרגיש רובוטית.

Wan-Streamer v0.1 משנה את הגישה הזו. במקום שירותים נפרדים, הוא משתמש ב-streaming Transformer אחד. הוא מתייחס לאודיו, וידאו וטקסט כאל לולאה אחת.

עוזרות סטנדרטיות עובדות כך: • המשתמש מדבר. • המערכת הופכת דיבור לטקסט. • המודל יוצר תגובת טקסט. • המערכת הופכת טקסט לדיבור. • האוואטר מנסה לסנכרן את תנועת השפתיים עם האודיו.

השיטה הזו שבירה. אם שלב אחד איטי, כל המערכת מחכה. אם המשתמש קוטע, המערכת לרוב לא מצליחה לשים לב.

Wan-Streamer פותר זאת על ידי מידול של שפה, אודיו ווידאו יחד. הוא משתמש ב-block-causal attention. זה מאפשר למודל לעדכן את המצב שלו באופן רציף. הוא לא מחכה לסיום תור שלם לפני שהוא פועל.

המערכת משתמשת בפיצול thinker-performer: • ה-thinker מטפל בתפיסה ובעדכוני מצב. • ה-performer מטפל ביחידת היצירה הבאה.

החפיפה הזו מונעת מחלקים בלולאה לחסום זה את זה. המודל משיג שיהוי (latency) של כ-200 מילי-שניות בצד המודל. שיהוי האינטראקציה הכולל נשאר סביב 550 מילי-שניות.

כשזמן התגובה נשאר מתחת לשנייה, השיחות מרגישות חיות. זה חשוב עבור: • אוואטרים של שירות לקוחות. • סוכני למידה (Tutoring agents). • כלי טלפרזנציה (Telepresence). • דמוים אינטראקטיביים.

Wan-Streamer עדיין בגרסה 0.1. איכות הווידאו נמוכה. מודל יחיד אינו פותר בעיות בטיחות או אמינות. עם זאת, הוא מוכיח שצורת לולאת האינטראקציה היא קריטית.

אם אתם בונים AI בזמן אמת, שאלו את השאלות הבאות: • האם אתם יכולים לאחד מודולים נפרדים לכדי backbone אחד? • איפה נמצאים העיכובים (waits) ב-pipeline שלכם? • אילו חלקים יכולים לחפוף כדי להפחית את העיכוב?

ב-AI בזמן אמת, הדרך שבה המידע זורם היא המוצר.

מקור: https://dev.to/prabhakar_chaudhary_7afe4/why-real-time-ai-assistants-are-hard-and-what-wan-streamer-v01-changes-3m70

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi