اتوماسیون هوش مصنوعی برای تدوین‌گران یوتیوب

جستجو در میان ساعت‌ها فیلم خام برای یافتن آن چند ثانیه‌ای که باعث جذابیت یک ویدیو در یوتیوب می‌شود، طاقت‌فرسا است. تدوین‌گران مستقل اغلب وقت خود را صرف حدس زدن لحظاتی می‌کنند که مخاطب را جذب می‌کند. این امر منجر به ریتم نامنظم و از دست رفتن فرصت‌ها می‌شود. هوش مصنوعی این حدس و گمان را به یک فرآیند تکرارپذیر تبدیل می‌کند.

چارچوب سه‌لایه

مطمئن‌ترین راه برای خودکارسازی انتخاب بخش‌های برجسته (highlights)، استفاده از یک خط لوله (pipeline) سه‌لایه است.

  • لایه ۱ یک شبکه گسترده است. این لایه از سیگنال‌های کم‌هزینه مانند اوج‌های صوتی (audio spikes) و سرعت بالای صحبت کردن برای علامت‌گذاری بخش‌هایی که از حالت عادی خارج می‌شوند، استفاده می‌کند.
  • لایه ۲ یک قلاب دقیق است. این لایه با بررسی متن پیاده‌سازی شده (transcript)، آن علامت‌ها را اصلاح می‌کند. این لایه از تحلیل احساسات (sentiment analysis) و امتیازدهی به حالات چهره استفاده می‌کند تا لحظاتی را که ترکیبی از چندین نشانه با اطمینان بالا هستند، حفظ کند.
  • لایه ۳ یک بازبینی مشترک انسان و هوش مصنوعی است. تدوین‌گر توالی را تأیید کرده و موارد مثبت کاذب (false positives) مانند صدای کوبیده شدن در یا سرفه را حذف می‌کند. این کار تضمین می‌کند که کلیپ‌ها یک داستان را روایت می‌کنند.

Azure Face API ابزاری است که می‌توانید برای این کار استفاده کنید. این ابزار تشخیص حالات چهره را برای امتیازدهی به غافلگیری، شادی یا تمرکز فراهم می‌کند.

تصور کنید در حال تدوین یک پادکست دو ساعته هستید که در آن میزبان پس از یک افشاگری غافلگیرکننده می‌خندد. لایه ۱ اوج صوتی را شناسایی می‌کند. لایه ۲ خنده را در متن پیاده‌سازی شده و یک جهش در امتیاز شادی را از طریق Azure Face API مشاهده می‌کند. لایه ۳ تأیید می‌کند که کلیپ به عنوان یک نقطه اوج (punchline) عمل می‌کند، پیش از آنکه آن را در تایم‌لاین قرار دهید.

مراحل اجرا

  • یک بررسی سریع صوتی و گفتاری روی فایل خام انجام دهید. برای هر بخشی که حجم صدا یا سرعت کلمات در دقیقه بیش از ۲۰ درصد افزایش می‌یابد، نشانه‌گذار (marker) ایجاد کنید.

  • بخش‌های نشانه‌گذاری شده را به یک سرویس تبدیل گفتار به متن (transcription service) بدهید. امتیازدهی احساسات را اجرا کرده و به دنبال عبارات محرک (trigger phrases) بگردید. از امتیازدهی حالات چهره استفاده کنید تا فقط بخش‌هایی را نگه دارید که حداقل در دو سیگنال با هم همخوانی دارند.

  • نشانه‌گذارها را وارد نرم‌افزار تدوین خود کنید. آن‌ها را پشت سر هم تماشا کنید تا موارد مثبت کاذب را حذف کنید. بخش‌های باقی‌مانده را طوری مرتب کنید که یک روایت منسجم را شکل دهند.

یک رویکرد لایه‌بندی شده، تشخیص‌های پرسر و صدا را از انتخاب‌های دقیق جدا می‌کند. ترکیب اوج‌های صوتی، سرعت گفتار، اوج‌های احساسی و امتیازات حالات چهره، بخش‌های برجسته با اطمینان بالا را به ارمغان می‌آورد. نظارت انسانی برای حذف اشتباهات و شکل دادن به داستان نهایی همچنان ضروری است.

Source: https://dev.to/ken_deng_ai/title-25n9

Optional learning community: https://t.me/GyaanSetuAi