چرا دستیارهای هوش مصنوعی بلادرنگ (Real-Time) دشوار هستند

ساخت هوش مصنوعی بلادرنگ دشوار است. اکثر سیستم‌ها از زنجیره‌ای از بخش‌های مجزا استفاده می‌کنند. یک بخش صدا را تشخیص می‌دهد. بخش دیگر گفتار را به متن تبدیل می‌کند. بخش سوم پاسخ را تولید می‌کند. بخش چهارم متن را به گفتار تبدیل می‌کند. و بخش پنجم یک آواتار را رندر می‌کند.

هر انتقال بین این بخش‌ها باعث ایجاد تأخیر می‌شود. هر مرز باعث ایجاد خطاهای زمانی می‌گردد. این امر باعث می‌شود تعامل، ربات‌گونه به نظر برسد.

Wan-Streamer v0.1 این رویکرد را تغییر می‌دهد. به‌جای استفاده از سرویس‌های مجزا، از یک Transformer استریمینگ واحد استفاده می‌کند. این مدل، صدا، ویدیو و متن را به عنوان یک حلقه واحد در نظر می‌گیرد.

دستیارهای استاندارد به این صورت عمل می‌کنند: • کاربر صحبت می‌کند. • سیستم گفتار را به متن تبدیل می‌کند. • مدل یک پاسخ متنی ایجاد می‌کند. • سیستم متن را به گفتار تبدیل می‌کند. • آواتار سعی می‌کند لب‌خوانی را با صدا هماهنگ کند.

این روش شکننده است. اگر یک مرحله کند باشد، کل سیستم منتظر می‌ماند. اگر کاربر حرف کاربر را قطع کند، سیستم اغلب متوجه نمی‌شود.

Wan-Streamer این مشکل را با مدل‌سازی هم‌زمان زبان، صدا و ویدیو حل می‌کند. این مدل از block-causal attention استفاده می‌کند. این امر به مدل اجازه می‌دهد تا وضعیت خود را به‌طور مداوم به‌روزرسانی کند. مدل منتظر نمی‌ماند تا یک نوبت کامل تمام شود و سپس اقدام کند.

سیستم از تفکیک thinker-performer استفاده می‌کند: • بخش thinker مسئول ادراک و به‌روزرسانی وضعیت است. • بخش performer مسئول واحد بعدی تولید است.

این هم‌پوشانی مانع از آن می‌شود که بخش‌های حلقه مانع یکدیگر شوند. مدل به تأخیر در سمت مدل (model-side latency) تقریباً ۲۰۰ میلی‌ثانیه دست می‌یابد. تأخیر کل تعامل در حدود ۵۵۰ میلی‌ثانیه باقی می‌ماند.

وقتی زمان پاسخ زیر یک ثانیه باقی می‌ماند، گفتگوها زنده و واقعی به نظر می‌رسند. این موضوع برای موارد زیر اهمیت دارد: • آواتارهای پشتیبانی مشتری. • عوامل آموزشی (Tutoring agents). • ابزارهای Telepresence. • دموهای تعاملی.

Wan-Streamer هنوز در نسخه 0.1 است. کیفیت ویدیو پایین است. یک مدل واحد، مسائل ایمنی یا قابلیت اطمینان را حل نمی‌کند. با این حال، ثابت می‌کند که ساختار حلقه تعامل اهمیت دارد.

اگر هوش مصنوعی بلادرنگ می‌سازید، این سوالات را بپرسید: • آیا می‌توانید ماژول‌های مجزا را در یک backbone واحد ادغام کنید؟ • نقاط انتظار در pipeline شما کجا هستند؟ • کدام بخش‌ها می‌توانند برای کاهش تأخیر با هم هم‌پوشانی داشته باشند؟

در هوش مصنوعی بلادرنگ، نحوه حرکت اطلاعات، خودِ محصول است.

Source: https://dev.to/prabhakar_chaudhary_7afe4/why-real-time-ai-assistants-are-hard-and-what-wan-streamer-v01-changes-3m70

Optional learning community: https://t.me/GyaanSetuAi