Tự động hóa bằng AI dành cho Biên tập viên YouTube
Việc sàng lọc hàng giờ quay thô để tìm ra vài giây đắt giá giúp video YouTube trở nên nổi bật thật sự rất mệt mỏi. Các biên tập viên độc lập thường lãng phí thời gian để đoán xem khoảnh khắc nào sẽ thu hút người xem. Điều này dẫn đến nhịp độ không đồng đều và bỏ lỡ các cơ hội. AI biến việc đoán mò này thành một quy trình có thể lặp lại được.
Khung làm việc Ba Lớp
Cách đáng tin cậy nhất để tự động hóa việc lựa chọn các đoạn nổi bật là sử dụng một quy trình ba lớp.
- Lớp 1 là một mạng lưới rộng. Nó sử dụng các tín hiệu chi phí thấp như sự gia tăng đột biến của âm thanh và tốc độ nói nhanh để đánh dấu các phân đoạn khác biệt so với mức cơ bản.
- Lớp 2 là một điểm móc chính xác. Nó tinh chỉnh các dấu hiệu đó bằng cách đi sâu vào bản ghi chép. Nó sử dụng phân tích cảm xúc và chấm điểm biểu cảm khuôn mặt để giữ lại những khoảnh khắc kết hợp nhiều tín hiệu có độ tin cậy cao.
- Lớp 3 là sự xem xét giữa người và AI. Biên tập viên xác minh chuỗi cảnh và loại bỏ các kết quả dương tính giả như tiếng đóng cửa hoặc tiếng ho. Điều này đảm bảo các clip kể được một câu chuyện.
Azure Face API là một công cụ bạn có thể sử dụng cho việc này. Nó cung cấp khả năng phát hiện biểu cảm khuôn mặt để chấm điểm sự ngạc nhiên, niềm vui hoặc sự tập trung.
Hãy tưởng tượng bạn đang biên tập một podcast dài hai tiếng, nơi người dẫn chương trình cười sau một tiết lộ bất ngờ. Lớp 1 bắt được sự gia tăng âm thanh. Lớp 2 nhận thấy tiếng cười trong bản ghi chép và sự gia tăng điểm niềm vui từ Azure Face API. Lớp 3 xác nhận clip đó hoạt động tốt như một điểm nhấn trước khi bạn đưa nó vào dòng thời gian.
Các bước triển khai
Chạy một lượt kiểm tra âm thanh và giọng nói nhanh trên tệp thô. Tạo các dấu mốc cho bất kỳ phân đoạn nào có âm lượng hoặc tốc độ nói tăng hơn 20%.
Đưa các phần đã đánh dấu vào dịch vụ chuyển chữ. Chạy chấm điểm cảm xúc và tìm kiếm các cụm từ kích hoạt. Sử dụng chấm điểm biểu cảm khuôn mặt để chỉ giữ lại các phân đoạn mà ít nhất hai tín hiệu trùng khớp.
Nhập các dấu mốc vào phần mềm chỉnh sửa của bạn. Xem chúng liên tiếp nhau để xóa các kết quả dương tính giả. Sắp xếp các đoạn còn lại để đảm bảo chúng tạo thành một nhịp kể chuyện mạch lạc.
Cách tiếp cận theo lớp giúp tách biệt việc phát hiện nhiễu khỏi việc lựa chọn chính xác. Kết hợp sự gia tăng âm thanh, tốc độ nói, các đỉnh cảm xúc và điểm biểu cảm khuôn mặt sẽ mang lại những đoạn nổi bật có độ tin cậy cao. Sự giám sát của con người vẫn đóng vai trò thiết yếu để loại bỏ sai sót và định hình câu chuyện cuối cùng.
Nguồn: https://dev.to/ken_deng_ai/title-25n9
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi