Kiến trúc thực sự đằng sau Giải trí AI

Đừng hỏi liệu AI có thay thế các nhà văn hay các studio hay không. Những câu hỏi đó không giúp bạn xây dựng được bất cứ điều gì.

Nếu bạn là một kỹ sư hoặc kiến trúc sư, bạn phải đặt một câu hỏi khác. Backend sẽ trông như thế nào khi nội dung được tạo theo yêu cầu thay vì được sản xuất một lần rồi phân phối?

Mô hình là phần dễ dàng. Những phần khó là độ trễ (latency), nguồn gốc (provenance) và chi phí.

1. Tính tương tác là một bài toán về streaming

Tạo theo lô (Batch generation) thì dễ. Bạn có thể render một clip qua đêm. Nhưng nếu người dùng tương tác với một nhân vật, phản hồi phải diễn ra trong vòng 200ms.

Để đạt được mục tiêu này, bạn không thể chỉ gọi một API. Bạn phải quản lý một ngân sách độ trễ (latency budget):

  • Network round trip: 40ms
  • Tokenization: 10ms
  • Model inference: 110ms
  • Post-processing: 25ms
  • Jitter margin: 15ms

Bạn cần đặt máy chủ tại biên (edge placement), tái sử dụng KV-cache và sử dụng speculative decoding. Dự án AI của bạn giờ đây là một dự án về hệ thống phân tán (distributed systems).

2. Nguồn gốc (Provenance) không phải là một yếu tố bổ sung sau cùng

Khi nội dung là tổng hợp (synthetic), bạn phải biết ai đã tạo ra nó và cái gì đã huấn luyện nó. Bạn không thể sửa lỗi này sau đó. Nếu bạn tạo ra một triệu tài sản (assets) mà không có dòng dõi (lineage), lịch sử đó sẽ mất vĩnh viễn.

Bạn phải tích hợp nguồn gốc vào mô hình dữ liệu của mình. Ghi lại sự phân bổ (attribution) và chữ ký (signatures) ngay tại thời điểm tạo. Lưu trữ chúng trong schema của bạn. Điều này cho phép bạn trả lời các câu hỏi về pháp lý hoặc bản quyền với tốc độ truy vấn.

3. Kinh tế học là một bài toán sản xuất

Văn bản tạo sinh (Generative text) sử dụng chi phí trên mỗi token. Video tạo sinh (Generative video) sử dụng chi phí trên mỗi phút.

Một phút video 4K có chi phí thực tế tính bằng GPU-seconds. Hầu hết các công ty đều chạy thử nghiệm (pilots) trông rất tuyệt vời nhưng thất bại khi mở rộng quy mô (scale) vì chi phí quá cao.

Để chiến thắng, bạn phải thiết lập việc suy luận (inference) của mình như một nhà máy. Theo dõi hiệu suất sử dụng (utilization) và sản lượng (yield). Sử dụng mô hình nhỏ nhất đáp ứng được tiêu chuẩn chất lượng của bạn. Cache các phân đoạn đã tạo để tiết kiệm tiền.

Mô hình là thứ thu hút các tiêu đề báo chí. Kiến trúc mới là thứ quyết định sản phẩm thực tế có thể ra mắt hay không.

Tóm tắt cho buổi đánh giá thiết kế (design review) tiếp theo của bạn:

  • Coi tính tương tác là một thách thức về hệ thống streaming.
  • Biến nguồn gốc thành một trường được ký và lưu trữ ngay từ ngày đầu tiên.
  • Đo lường chi phí trên mỗi phút được phân phối để đảm bảo tính năng của bạn có thể tồn tại.

Source: https://dev.to/sauvast/the-real-architecture-behind-ai-entertainment-latency-provenance-and-cost-per-minute-bg9

Optional learning community: https://t.me/GyaanSetuAi