چرا اکثر پروژه‌های آزمایشی هوش مصنوعی صوتی شکست می‌خورند

اکثر پروژه‌های آزمایشی (pilots) هوش مصنوعی صوتی به این دلیل شکست می‌خورند که شرایط دنیای واقعی را نادیده می‌گیرند. یک مشتری در همان روز اول، ۴۲۰۰ دلار بابت اضافه‌کاری از دست داد، زیرا سیستم آن‌ها بسیار کند بود.

اگر می‌خواهید هوش مصنوعی صوتی شما کارآمد باشد، باید بر این چهار حوزه تسلط پیدا کنید.

۱. کنترل تأخیر (Latency) انسان‌ها از مکث متنفرند. اگر پاسخ بیش از ۳۰۰ میلی‌ثانیه طول بکشد، تماس‌گیرندگان قطع می‌کنند. اکثر تیم‌ها فراموش می‌کنند تمام مراحل زنجیره صوتی را محاسبه کنند.

تأخیرهای معمول عبارتند از: • دریافت از میکروفون: ۱۰ میلی‌ثانیه • لرزش شبکه (Network jitter): ۲۰ میلی‌ثانیه • سرویس ASR: ۱۲۰ میلی‌ثانیه • موتور تشخیص قصد (Intent engine): ۳۰ میلی‌ثانیه • سنتز TTS: ۸۰ میلی‌ثانیه • رندر صدا: ۱۲ میلی‌ثانیه

مجموع: ۲۷۲ میلی‌ثانیه. شما همین حالا هم در نزدیکی حد مجاز هستید.

راه حل: برای هر مرحله یک بودجه تأخیر تعیین کنید. ما یک بار نرخ بیت (bitrate) سرویس TTS را از ۲۴kbps به ۱۶kbps کاهش دادیم. این کار بدون کاهش کیفیت، ۴۵ میلی‌ثانیه صرفه‌جویی کرد.

۲. آموزش برای نویز واقعی بسیاری از پروژه‌های آزمایشی از داده‌های اتاق‌های ساکت استفاده می‌کنند. دفاتر واقعی پر از سر و صدا هستند. سطوح بالای نویز، دقت شما را از بین می‌برد. یک استارتاپ شاهد کاهش دقت از ۹۴٪ به ۶۱٪ بود، زیرا مدل آن‌ها نمی‌توانست نویز پس‌زمینه را مدیریت کند.

راه حل: ۴۸ ساعت صدا در محل واقعی کار ضبط کنید. از آن نویز برای آموزش مدل خود استفاده کنید. این کار تضمین می‌کند که هوش مصنوعی در جایی که افراد واقعاً نشسته‌اند، کار می‌کند.

۳. مرحله‌بندی واژگان اضافه کردن هزاران کد محصول به صورت یک‌جا، مدل را از کار می‌اندازد و باعث خطاهای بسیار زیاد می‌شود. یک شرکت ۳۴۰۰ کد را اضافه کرد و تیم انطباق (compliance) خود را با تماس‌های اشتباه بمباران کرد.

راه حل: از یک عرضه مرحله‌ای سه مرحله‌ای استفاده کنید: • مرحله ۱: مقاصد اصلی (۳۰۰ اصطلاح). • مرحله ۲: اصطلاحات تخصصی پرکاربرد (۴۰۰ اصطلاح). • مرحله ۳: اصطلاحات Long-tail (از یک سرویس جستجو استفاده کنید).

۴. داشتن جایگزین انسانی سریع سیستم جایگزین (Fallback) یک شیر اطمینان است. در اکثر پروژه‌های شکست‌خورده، تأخیر در انتقال به اپراتور انسانی بیش از ۹ ثانیه است. پروژه‌های موفق آن را زیر ۵ ثانیه نگه می‌دارند.

راه حل: از روز اول مسیر اتصال به اپراتور زنده را باز نگه دارید. هر شب از متن پیاده‌شده (transcripts) تماس‌های ناموفق برای آموزش ربات خود استفاده کنید.

نتایج پروژه‌های آزمایشی موفق: • تأخیر: زیر ۲۸۰ میلی‌ثانیه • نویز: مقاوم در محیط‌های واقعی • واژگان: رویکرد مرحله‌بندی شده • جایگزین انسانی: زیر ۵ ثانیه

این مراحل منجر به بازگشت سرمایه (ROI) ۳.۸ برابری و کاهش ۲۷ ثانیه‌ای زمان رسیدگی می‌شود.

منبع: https://dev.to/isabelle_dubuis_d858453d7/why-most-voice-ai-pocs-fail-and-the-4-that-didnt-55e4

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi