اتوماسیون هوش مصنوعی برای تدوینگران یوتیوب
جستجو در میان ساعتها فیلم خام برای یافتن آن چند ثانیهای که باعث جذابیت یک ویدیو در یوتیوب میشود، طاقتفرسا است. تدوینگران مستقل اغلب وقت خود را صرف حدس زدن لحظاتی میکنند که مخاطب را جذب میکند. این امر منجر به ریتم نامنظم و از دست رفتن فرصتها میشود. هوش مصنوعی این حدس و گمان را به یک فرآیند تکرارپذیر تبدیل میکند.
چارچوب سهلایه
مطمئنترین راه برای خودکارسازی انتخاب بخشهای برجسته (highlights)، استفاده از یک خط لوله (pipeline) سهلایه است.
- لایه ۱ یک شبکه گسترده است. این لایه از سیگنالهای کمهزینه مانند اوجهای صوتی (audio spikes) و سرعت بالای صحبت کردن برای علامتگذاری بخشهایی که از حالت عادی خارج میشوند، استفاده میکند.
- لایه ۲ یک قلاب دقیق است. این لایه با بررسی متن پیادهسازی شده (transcript)، آن علامتها را اصلاح میکند. این لایه از تحلیل احساسات (sentiment analysis) و امتیازدهی به حالات چهره استفاده میکند تا لحظاتی را که ترکیبی از چندین نشانه با اطمینان بالا هستند، حفظ کند.
- لایه ۳ یک بازبینی مشترک انسان و هوش مصنوعی است. تدوینگر توالی را تأیید کرده و موارد مثبت کاذب (false positives) مانند صدای کوبیده شدن در یا سرفه را حذف میکند. این کار تضمین میکند که کلیپها یک داستان را روایت میکنند.
Azure Face API ابزاری است که میتوانید برای این کار استفاده کنید. این ابزار تشخیص حالات چهره را برای امتیازدهی به غافلگیری، شادی یا تمرکز فراهم میکند.
تصور کنید در حال تدوین یک پادکست دو ساعته هستید که در آن میزبان پس از یک افشاگری غافلگیرکننده میخندد. لایه ۱ اوج صوتی را شناسایی میکند. لایه ۲ خنده را در متن پیادهسازی شده و یک جهش در امتیاز شادی را از طریق Azure Face API مشاهده میکند. لایه ۳ تأیید میکند که کلیپ به عنوان یک نقطه اوج (punchline) عمل میکند، پیش از آنکه آن را در تایملاین قرار دهید.
مراحل اجرا
یک بررسی سریع صوتی و گفتاری روی فایل خام انجام دهید. برای هر بخشی که حجم صدا یا سرعت کلمات در دقیقه بیش از ۲۰ درصد افزایش مییابد، نشانهگذار (marker) ایجاد کنید.
بخشهای نشانهگذاری شده را به یک سرویس تبدیل گفتار به متن (transcription service) بدهید. امتیازدهی احساسات را اجرا کرده و به دنبال عبارات محرک (trigger phrases) بگردید. از امتیازدهی حالات چهره استفاده کنید تا فقط بخشهایی را نگه دارید که حداقل در دو سیگنال با هم همخوانی دارند.
نشانهگذارها را وارد نرمافزار تدوین خود کنید. آنها را پشت سر هم تماشا کنید تا موارد مثبت کاذب را حذف کنید. بخشهای باقیمانده را طوری مرتب کنید که یک روایت منسجم را شکل دهند.
یک رویکرد لایهبندی شده، تشخیصهای پرسر و صدا را از انتخابهای دقیق جدا میکند. ترکیب اوجهای صوتی، سرعت گفتار، اوجهای احساسی و امتیازات حالات چهره، بخشهای برجسته با اطمینان بالا را به ارمغان میآورد. نظارت انسانی برای حذف اشتباهات و شکل دادن به داستان نهایی همچنان ضروری است.
Source: https://dev.to/ken_deng_ai/title-25n9
Optional learning community: https://t.me/GyaanSetuAi