أتمتة الذكاء الاصطناعي لمحرري YouTube

إن البحث في ساعات من اللقطات الخام للعثور على الثواني القليلة التي تجعل فيديو YouTube مميزاً هو أمر مرهق. غالباً ما يضيع المحررون المستقلون وقتهم في التخمين حول اللحظات التي ستجذب المشاهدين، مما يؤدي إلى إيقاع غير متساوٍ وضياع فرص هامة. يحول الذكاء الاصطناعي هذا التخمين إلى عملية قابلة للتكرار.

إطار العمل ثلاثي الطبقات

الطريقة الأكثر موثوقية لأتمتة اختيار اللقطات البارزة هي استخدام مسار عمل مكون من ثلاث طبقات.

  • الطبقة 1 هي شبكة واسعة. تستخدم إشارات منخفضة التكلفة مثل الارتفاعات المفاجئة في الصوت وسرعة الكلام لتحديد المقاطع التي تختلف عن المستوى المعتاد.
  • الطبقة 2 هي خطاف دقيق. تعمل على تحسين تلك العلامات من خلال الغوص في التفريغ النصي (transcript). وتستخدم تحليل المشاعر وتقييم تعبيرات الوجه للاحتفاظ باللحظات التي تجمع بين عدة إشارات عالية الثقة.
  • الطبقة 3 هي مراجعة بشرية-آلية. يقوم المحرر بالتحقق من التسلسل وإزالة النتائج الإيجابية الخاطئة مثل صوت إغلاق الباب أو السعال. يضمن ذلك أن تحكي المقاطع قصة متماسكة.

Azure Face API هي أداة يمكنك استخدامها لهذا الغرض. فهي توفر خاصية اكتشاف تعبيرات الوجه لتقييم المفاجأة أو الفرح أو التركيز.

تخيل أنك تقوم بتحرير بودكاست مدته ساعتان حيث يضحك المضيف بعد كشف مفاجئ. تلتقط الطبقة 1 الارتفاع المفاجئ في الصوت. وترى الطبقة 2 الضحك في التفريغ النصي وارتفاع درجة الفرح من Azure Face API. وتؤكد الطبقة 3 أن المقطع يعمل كخاتمة مضحكة (punchline) قبل وضعه على الجدول الزمني (timeline).

خطوات التنفيذ

  • قم بإجراء فحص سريع للصوت والكلام على الملف الخام. أنشئ علامات (markers) لأي مقطع يرتفع فيه مستوى الصوت أو عدد الكلمات في الدقيقة بنسبة تزيد عن 20 بالمائة.

  • قم بتغذية الأقسام المحددة في خدمة تحويل الكلام إلى نص. قم بإجراء تقييم للمشاعر وابحث عن العبارات المحفزة. استخدم تقييم تعبيرات الوجه للاحتفاظ فقط بالمقاطع التي تتوافق فيها إشارتان على الأقل.

  • استورد العلامات إلى برنامج التحرير الخاص بك. شاهدها بالتتابع لحذف النتائج الإيجابية الخاطئة. رتب المقاطع المتبقية لضمان تكوين إيقاع سردي متماسك.

يفصل النهج متعدد الطبقات بين الكشف المليء بالضجيج والاختيار الدقيق. إن الجمع بين الارتفاعات الصوتية، وسرعة الكلام، وذروات المشاعر، وتقييمات تعبيرات الوجه ينتج لقطات بارزة عالية الثقة. يظل الإشراف البشري ضرورياً لتنقية الأخطاء وتشكيل القصة النهائية.

المصدر: https://dev.to/ken_deng_ai/title-25n9

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi