Mengapa Asisten AI Real-Time Itu Sulit

AI real-time sulit untuk dibangun. Sebagian besar sistem menggunakan rangkaian bagian yang terpisah. Satu bagian mendeteksi suara. Bagian lain mengubah ucapan menjadi teks. Bagian ketiga menghasilkan respons. Bagian keempat mengubah teks menjadi ucapan. Bagian kelima merender avatar.

Setiap serah terima antar bagian ini menambah penundaan (delay). Setiap batasan menciptakan kesalahan waktu (timing errors). Hal ini membuat interaksi terasa robotik.

Wan-Streamer v0.1 mengubah pendekatan ini. Alih-alih menggunakan layanan terpisah, ia menggunakan satu streaming Transformer. Ia memperlakukan audio, video, dan teks sebagai satu loop tunggal.

Asisten standar bekerja seperti ini: • Pengguna berbicara. • Sistem mengubah ucapan menjadi teks. • Model membuat respons teks. • Sistem mengubah teks menjadi ucapan. • Avatar mencoba menyinkronkan gerakan bibir dengan audio.

Metode ini rapuh. Jika satu langkah lambat, seluruh sistem akan menunggu. Jika pengguna menyela, sistem sering kali gagal menyadarinya.

Wan-Streamer mengatasi hal ini dengan memodelkan bahasa, audio, dan video secara bersamaan. Ia menggunakan block-causal attention. Hal ini memungkinkan model untuk memperbarui statusnya secara terus-menerus. Ia tidak menunggu satu giliran penuh selesai sebelum bertindak.

Sistem ini menggunakan pembagian thinker-performer: • Thinker menangani persepsi dan pembaruan status. • Performer menangani unit generasi berikutnya.

Tumpang tindih ini mencegah bagian-bagian dari loop saling menghambat. Model ini mencapai latensi sisi model sekitar 200 ms. Total latensi interaksi tetap berada di sekitar 550 ms.

Ketika waktu respons tetap di bawah satu detik, percakapan terasa langsung (live). Ini penting untuk: • Avatar dukungan pelanggan. • Agen tutor. • Alat telepresence. • Demo interaktif.

Wan-Streamer masih dalam versi 0.1. Kualitas videonya masih rendah. Satu model saja tidak menyelesaikan masalah keamanan atau keandalan. Namun, ini membuktikan bahwa bentuk dari loop interaksi itu penting.

Jika Anda membangun AI real-time, ajukan pertanyaan-pertanyaan ini: • Bisakah Anda menyatukan modul-modul terpisah ke dalam satu backbone? • Di mana letak penundaan dalam pipeline Anda? • Bagian mana yang dapat tumpang tindih untuk mengurangi delay?

Dalam AI real-time, cara informasi bergerak adalah produknya.

Sumber: https://dev.to/prabhakar_chaudhary_7afe4/why-real-time-ai-assistants-are-hard-and-what-wan-streamer-v01-changes-3m70

Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi