AI Automation for YouTube Editors
การไล่ดูฟุตเทจดิบหลายชั่วโมงเพื่อหาเพียงไม่กี่วินาทีที่จะทำให้วิดีโอ YouTube โดดเด่นนั้นเป็นเรื่องที่น่าเหนื่อยหน่าย บรรณาธิการอิสระมักเสียเวลาไปกับการคาดเดาว่าช่วงเวลาไหนจะดึงดูดผู้ชมได้ ซึ่งนำไปสู่จังหวะของวิดีโอที่ไม่สม่ำเสมอและพลาดโอกาสสำคัญ AI จะเปลี่ยนการคาดเดานี้ให้กลายเป็นกระบวนการที่ทำซ้ำได้
The Three-Layer Framework
วิธีที่น่าเชื่อถือที่สุดในการทำระบบเลือกไฮไลต์แบบอัตโนมัติคือการใช้กระบวนการแบบสามเลเยอร์
- เลเยอร์ 1 คือการกวาดข้อมูลในวงกว้าง โดยใช้สัญญาณที่มีต้นทุนต่ำ เช่น เสียงที่ดังขึ้นอย่างรวดเร็ว (audio spikes) และการพูดที่รวดเร็ว เพื่อระบุส่วนที่แตกต่างไปจากระดับปกติ
- เลเยอร์ 2 คือการเจาะจงจุดดึงดูด (precision hook) โดยจะปรับปรุงข้อมูลที่ระบุไว้จากการวิเคราะห์บทถอดเสียง (transcript) มีการใช้การวิเคราะห์ความรู้สึก (sentiment analysis) และการให้คะแนนการแสดงออกทางสีหน้า เพื่อรักษาช่วงเวลาที่มีสัญญาณบ่งชี้ความมั่นใจสูงหลายอย่างรวมกันไว้
- เลเยอร์ 3 คือการตรวจสอบโดยมนุษย์และ AI โดยบรรณาธิการจะตรวจสอบลำดับเหตุการณ์และลบส่วนที่ตรวจจับผิดพลาด เช่น เสียงปิดประตูหรือเสียงไอ เพื่อให้แน่ใจว่าคลิปเหล่านั้นสามารถเล่าเรื่องได้
Azure Face API เป็นเครื่องมือที่คุณสามารถนำมาใช้ในงานนี้ได้ โดยจะช่วยตรวจจับการแสดงออกทางสีหน้าเพื่อให้คะแนนความประหลาดใจ ความสุข หรือความตั้งใจ
ลองจินตนาการถึงการตัดต่อพอดแคสต์ความยาวสองชั่วโมงที่โฮสต์หัวเราะหลังจากมีการเปิดเผยเรื่องที่น่าประหลาดใจ เลเยอร์ 1 จะตรวจจับเสียงที่ดังขึ้น เลเยอร์ 2 จะเห็นเสียงหัวเราะในบทถอดเสียงและคะแนนความสุขที่พุ่งสูงขึ้นจาก Azure Face API ส่วนเลเยอร์ 3 จะยืนยันว่าคลิปนั้นทำหน้าที่เป็นมุกตลกได้ดีก่อนที่คุณจะวางมันลงบนไทม์ไลน์
Implementation Steps
ทำการประมวลผลเสียงและคำพูดอย่างรวดเร็วในไฟล์ดิบ สร้างเครื่องหมาย (markers) สำหรับทุกส่วนที่ระดับเสียงหรือจำนวนคำต่อนาทีเพิ่มขึ้นมากกว่า 20 เปอร์เซ็นต์
ส่งส่วนที่ทำเครื่องหมายไว้ไปยังบริการถอดเสียง (transcription service) ทำการให้คะแนนความรู้สึกและมองหาคำสำคัญที่เป็นตัวกระตุ้น (trigger phrases) ใช้การให้คะแนนการแสดงออกทางสีหน้าเพื่อเก็บเฉพาะส่วนที่มีสัญญาณอย่างน้อยสองอย่างสอดคล้องกัน
นำเครื่องหมายเข้าสู่ซอฟต์แวร์ตัดต่อของคุณ ตรวจสอบคลิปเหล่านั้นแบบต่อเนื่องเพื่อลบส่วนที่ตรวจจับผิดพลาด จัดเรียงส่วนที่เหลือเพื่อให้แน่ใจว่าพวกมันสร้างจังหวะการเล่าเรื่องที่สอดคล้องกัน
แนวทางแบบแบ่งเลเยอร์ช่วยแยกการตรวจจับที่วุ่นวายออกจากการเลือกที่แม่นยำ การรวมสัญญาณเสียงที่ดังขึ้น, จังหวะการพูด, จุดสูงสุดของความรู้สึก และคะแนนการแสดงออกทางสีหน้าเข้าด้วยกัน จะช่วยให้ได้ไฮไลต์ที่มีความมั่นใจสูง อย่างไรก็ตาม การกำกับดูแลโดยมนุษย์ยังคงเป็นสิ่งจำเป็นในการคัดกรองข้อผิดพลาดและขัดเกลาเรื่องราวในตอนท้าย
Source: https://dev.to/ken_deng_ai/title-25n9
Optional learning community: https://t.me/GyaanSetuAi