چرا دستیارهای هوش مصنوعی بلادرنگ (Real-Time) دشوار هستند
ساخت هوش مصنوعی بلادرنگ دشوار است. اکثر سیستمها از زنجیرهای از بخشهای مجزا استفاده میکنند. یک بخش صدا را تشخیص میدهد. بخش دیگر گفتار را به متن تبدیل میکند. بخش سوم پاسخ را تولید میکند. بخش چهارم متن را به گفتار تبدیل میکند. و بخش پنجم یک آواتار را رندر میکند.
هر انتقال بین این بخشها باعث ایجاد تأخیر میشود. هر مرز باعث ایجاد خطاهای زمانی میگردد. این امر باعث میشود تعامل، رباتگونه به نظر برسد.
Wan-Streamer v0.1 این رویکرد را تغییر میدهد. بهجای استفاده از سرویسهای مجزا، از یک Transformer استریمینگ واحد استفاده میکند. این مدل، صدا، ویدیو و متن را به عنوان یک حلقه واحد در نظر میگیرد.
دستیارهای استاندارد به این صورت عمل میکنند: • کاربر صحبت میکند. • سیستم گفتار را به متن تبدیل میکند. • مدل یک پاسخ متنی ایجاد میکند. • سیستم متن را به گفتار تبدیل میکند. • آواتار سعی میکند لبخوانی را با صدا هماهنگ کند.
این روش شکننده است. اگر یک مرحله کند باشد، کل سیستم منتظر میماند. اگر کاربر حرف کاربر را قطع کند، سیستم اغلب متوجه نمیشود.
Wan-Streamer این مشکل را با مدلسازی همزمان زبان، صدا و ویدیو حل میکند. این مدل از block-causal attention استفاده میکند. این امر به مدل اجازه میدهد تا وضعیت خود را بهطور مداوم بهروزرسانی کند. مدل منتظر نمیماند تا یک نوبت کامل تمام شود و سپس اقدام کند.
سیستم از تفکیک thinker-performer استفاده میکند: • بخش thinker مسئول ادراک و بهروزرسانی وضعیت است. • بخش performer مسئول واحد بعدی تولید است.
این همپوشانی مانع از آن میشود که بخشهای حلقه مانع یکدیگر شوند. مدل به تأخیر در سمت مدل (model-side latency) تقریباً ۲۰۰ میلیثانیه دست مییابد. تأخیر کل تعامل در حدود ۵۵۰ میلیثانیه باقی میماند.
وقتی زمان پاسخ زیر یک ثانیه باقی میماند، گفتگوها زنده و واقعی به نظر میرسند. این موضوع برای موارد زیر اهمیت دارد: • آواتارهای پشتیبانی مشتری. • عوامل آموزشی (Tutoring agents). • ابزارهای Telepresence. • دموهای تعاملی.
Wan-Streamer هنوز در نسخه 0.1 است. کیفیت ویدیو پایین است. یک مدل واحد، مسائل ایمنی یا قابلیت اطمینان را حل نمیکند. با این حال، ثابت میکند که ساختار حلقه تعامل اهمیت دارد.
اگر هوش مصنوعی بلادرنگ میسازید، این سوالات را بپرسید: • آیا میتوانید ماژولهای مجزا را در یک backbone واحد ادغام کنید؟ • نقاط انتظار در pipeline شما کجا هستند؟ • کدام بخشها میتوانند برای کاهش تأخیر با هم همپوشانی داشته باشند؟
در هوش مصنوعی بلادرنگ، نحوه حرکت اطلاعات، خودِ محصول است.
Optional learning community: https://t.me/GyaanSetuAi
