لماذا تُعد المساعدات الذكية في الوقت الفعلي صعبة البناء
بناء الذكاء الاصطناعي في الوقت الفعلي أمر صعب. تستخدم معظم الأنظمة سلسلة من الأجزاء المنفصلة؛ جزء يكتشف الصوت، وآخر يحول الكلام إلى نص، وثالث يولد استجابة، ورابع يحول النص إلى كلام، وخامس يقوم بإظهار صورة رمزية (Avatar).
كل عملية تسليم بين هذه الأجزاء تضيف تأخيراً، وكل حد فاصل يتسبب في أخطاء توقيت، مما يجعل التفاعل يبدو آلياً.
يغير Wan-Streamer v0.1 هذا النهج. فبدلاً من الخدمات المنفصلة، يستخدم نموذج Transformer تدفقي واحد، حيث يعامل الصوت والفيديو والنص كحلقة واحدة متكاملة.
تعمل المساعدات القياسية على النحو التالي: • يتحدث المستخدم. • يحول النظام الكلام إلى نص. • ينشئ النموذج استجابة نصية. • يحول النظام النص إلى كلام. • تحاول الصورة الرمزية (Avatar) مزامنة حركة الشفاه مع الصوت.
هذه الطريقة هشة؛ فإذا كانت إحدى الخطوات بطيئة، ينتظر النظام بأكمله. وإذا قاطع المستخدم الحديث، فغالباً ما يفشل النظام في ملاحظة ذلك.
يحل Wan-Streamer هذه المشكلة من خلال نمذجة اللغة والصوت والفيديو معاً. فهو يستخدم تقنية block-causal attention، مما يسمح للنموذج بتحديث حالته باستمرار، دون انتظار انتهاء الدور بالكامل قبل اتخاذ إجراء.
يستخدم النظام تقسيم "المفكر-المؤدي" (thinker-performer): • يتولى "المفكر" (thinker) مهام الإدراك وتحديثات الحالة. • يتولى "المؤدي" (performer) وحدة التوليد التالية.
يمنع هذا التداخل أجزاء الحلقة من تعطيل بعضها البعض. يحقق النموذج زمن انتقال (latency) من جانب النموذج يبلغ حوالي 200 مللي ثانية، بينما يظل إجمالي زمن انتقال التفاعل حوالي 550 مللي ثانية.
عندما يظل وقت الاستجابة أقل من ثانية واحدة، تبدو المحادثات حية ومباشرة. وهذا أمر بالغ الأهمية لـ: • الصور الرمزية (Avatars) لدعم العملاء. • وكلاء التعليم (Tutoring agents). • أدوات التواجد عن بُعد (Telepresence tools). • العروض التوضيحية التفاعلية.
لا يزال Wan-Streamer في الإصدار 0.1، وجودة الفيديو منخفضة. كما أن النموذج الواحد لا يحل مشكلات الأمان أو الموثوقية، ومع ذلك، فإنه يثبت أن شكل حلقة التفاعل هو أمر جوهري.
إذا كنت تبني ذكاءً اصطناعياً في الوقت الفعلي، فاسأل نفسك هذه الأسئلة: • هل يمكنك دمج الوحدات المنفصلة في هيكل أساسي (backbone) واحد؟ • أين تكمن فترات الانتظار في مسار العمل (pipeline) الخاص بك؟ • ما هي الأجزاء التي يمكن أن تتداخل لتقليل التأخير؟
في الذكاء الاصطناعي في الوقت الفعلي، طريقة انتقال المعلومات هي المنتج ذاته.
مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi
