Arsitektur Sebenarnya di Balik Hiburan AI
Berhentilah bertanya apakah AI akan menggantikan penulis atau studio. Pertanyaan-pertanyaan tersebut tidak membantu Anda membangun apa pun.
Jika Anda seorang insinyur atau arsitek, Anda harus mengajukan pertanyaan yang berbeda. Seperti apa tampilan backend ketika konten dibuat sesuai permintaan (on demand) alih-alih diproduksi sekali lalu didistribusikan?
Model adalah bagian yang mudah. Bagian yang sulit adalah latensi, provenansi, dan biaya.
- Interaktivitas adalah masalah streaming
Generasi batch itu mudah. Anda bisa merender klip semalaman. Namun jika pengguna berinteraksi dengan karakter, respons harus terjadi dalam 200ms.
Untuk mencapai target ini, Anda tidak bisa sekadar memanggil API. Anda harus mengelola anggaran latensi (latency budget):
- Network round trip: 40ms
- Tokenisasi: 10ms
- Inferensi model: 110ms
- Pasca-pemrosesan: 25ms
- Margin jitter: 15ms
Anda membutuhkan penempatan edge, penggunaan kembali KV-cache, dan speculative decoding. Proyek AI Anda kini menjadi proyek sistem terdistribusi.
- Provenansi bukanlah pemikiran belakangan
Ketika konten bersifat sintetis, Anda harus tahu siapa yang membuatnya dan apa yang melatihnya. Anda tidak bisa memperbaiki ini nanti. Jika Anda menghasilkan satu juta aset tanpa silsilah (lineage), sejarah tersebut akan hilang selamanya.
Anda harus membangun provenansi ke dalam model data Anda. Tangkap atribusi dan tanda tangan (signature) pada saat pembuatan. Simpan dalam skema Anda. Ini memungkinkan Anda menjawab pertanyaan hukum atau royalti dengan kecepatan query.
- Ekonomi adalah masalah manufaktur
Teks generatif menggunakan biaya per token. Video generatif menggunakan biaya per menit.
Satu menit video 4K memiliki biaya nyata dalam GPU-detik. Kebanyakan perusahaan menjalankan proyek pilot yang terlihat hebat tetapi gagal saat skala besar karena biayanya terlalu tinggi.
Untuk menang, Anda harus menginstrumentasi inferensi Anda seperti sebuah pabrik. Pantau utilisasi dan hasil (yield). Gunakan model terkecil yang memenuhi standar kualitas Anda. Cache segmen yang dihasilkan untuk menghemat uang.
Model mendapatkan sorotan utama. Arsitektur menentukan apa yang benar-benar dirilis.
Ringkasan untuk tinjauan desain (design review) Anda berikutnya:
- Perlakukan interaktivitas sebagai tantangan sistem streaming.
- Jadikan provenansi sebagai field yang ditandatangani dan disimpan sejak hari pertama.
- Ukur biaya per menit yang dikirimkan untuk memastikan fitur Anda dapat bertahan.
Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi
