AI 娱乐背后的真实架构

不要再问 AI 是否会取代编剧或制片厂了。这些问题对构建任何东西都没有帮助。

如果你是一名工程师或架构师,你必须问一个不同的问题。当内容是按需生成,而非一次性制作并分发时,后端架构会是什么样子?

模型是容易的部分。难点在于延迟、溯源和成本。

1. 交互性是一个流式问题

批量生成很容易。你可以通宵渲染一段视频。但如果用户与角色进行交互,响应必须在 200ms 内发生。

为了达到这个目标,你不能仅仅调用 API。你必须管理延迟预算:

  • 网络往返:40ms
  • Token 化:10ms
  • 模型推理:110ms
  • 后处理:25ms
  • 抖动余量:15ms

你需要边缘部署、KV-cache 复用和投机采样(speculative decoding)。你的 AI 项目现在变成了一个分布式系统项目。

2. 溯源不是事后才考虑的事情

当内容是合成的时,你必须知道是谁制作了它,以及是用什么训练出来的。你无法在事后修复这个问题。如果你在没有数据血缘(lineage)的情况下生成了一百万个资产,那么这段历史将永远丢失。

你必须将溯源构建到你的数据模型中。在生成瞬间捕获归属信息和签名。将它们存储在你的 schema 中。这能让你以查询级的速度回答法律或版税问题。

3. 经济性是一个制造问题

生成式文本使用“每个 token 的成本”。生成式视频使用“每分钟的成本”。

一分钟的 4K 视频在 GPU 秒数上有着真实的成本。大多数公司运行的试点项目看起来很棒,但在规模化时会失败,因为成本太高了。

为了取胜,你必须像管理工厂一样对推理进行监测。跟踪利用率和产出率。使用满足质量标准的最小模型。缓存已生成的片段以节省资金。

模型占据了头条新闻,而架构决定了最终能交付什么。

下次设计评审的总结:

  • 将交互性视为流式系统的挑战。
  • 从第一天起,就将溯源作为一个已签名、已存储的字段。
  • 衡量每交付分钟的成本,以确保你的功能能够生存下去。

Source: https://dev.to/sauvast/the-real-architecture-behind-ai-entertainment-latency-provenance-and-cost-per-minute-bg9

Optional learning community: https://t.me/GyaanSetuAi