Tại sao các Trợ lý AI Thời gian thực lại khó xây dựng
Xây dựng AI thời gian thực rất khó. Hầu hết các hệ thống sử dụng một chuỗi các thành phần riêng biệt. Một phần nhận diện giọng nói. Một phần khác chuyển đổi giọng nói thành văn bản. Phần thứ ba tạo phản hồi. Phần thứ tư chuyển văn bản thành giọng nói. Phần thứ năm hiển thị một avatar.
Mỗi lần chuyển giao giữa các thành phần này đều làm tăng độ trễ. Mỗi ranh giới đều tạo ra lỗi về thời gian. Điều này khiến sự tương tác có cảm giác như robot.
Wan-Streamer v0.1 thay đổi cách tiếp cận này. Thay vì các dịch vụ riêng biệt, nó sử dụng một Transformer streaming duy nhất. Nó xử lý âm thanh, video và văn bản như một vòng lặp duy nhất.
Các trợ lý tiêu chuẩn hoạt động như sau: • Người dùng nói. • Hệ thống chuyển đổi giọng nói thành văn bản. • Mô hình tạo phản hồi bằng văn bản. • Hệ thống chuyển văn bản thành giọng nói. • Avatar cố gắng đồng bộ khẩu hình miệng với âm thanh.
Phương pháp này rất mong manh. Nếu một bước bị chậm, toàn bộ hệ thống sẽ phải chờ đợi. Nếu người dùng ngắt lời, hệ thống thường không nhận ra.
Wan-Streamer giải quyết vấn đề này bằng cách mô hình hóa ngôn ngữ, âm thanh và video cùng nhau. Nó sử dụng cơ chế block-causal attention. Điều này cho phép mô hình cập nhật trạng thái của nó một cách liên tục. Nó không đợi một lượt nói kết thúc hoàn toàn trước khi hành động.
Hệ thống sử dụng sự phân tách thinker-performer: • Thinker xử lý nhận thức và cập nhật trạng thái. • Performer xử lý đơn vị tạo nội dung tiếp theo.
Sự chồng lấp này ngăn các phần của vòng lặp chặn lẫn nhau. Mô hình đạt được độ trễ phía mô hình (model-side latency) khoảng 200 ms. Tổng độ trễ tương tác duy trì ở mức khoảng 550 ms.
Khi thời gian phản hồi dưới một giây, các cuộc hội thoại sẽ mang lại cảm giác trực tiếp. Điều này quan trọng đối với: • Avatar hỗ trợ khách hàng. • Trợ lý gia sư. • Công cụ hiện diện từ xa (telepresence). • Các bản demo tương tác.
Wan-Streamer vẫn đang ở phiên bản 0.1. Chất lượng video còn thấp. Một mô hình duy nhất không giải quyết được vấn đề an toàn hay độ tin cậy. Tuy nhiên, nó chứng minh rằng cấu trúc của vòng lặp tương tác là rất quan trọng.
Nếu bạn xây dựng AI thời gian thực, hãy đặt ra những câu hỏi sau: • Bạn có thể hợp nhất các mô-đun riêng biệt thành một backbone duy nhất không? • Đâu là những điểm chờ đợi trong quy trình (pipeline) của bạn? • Những phần nào có thể chồng lấp lên nhau để giảm độ trễ?
Trong AI thời gian thực, cách thức thông tin di chuyển chính là sản phẩm.
Optional learning community: https://t.me/GyaanSetuAi
