Реальная архитектура развлечений на базе ИИ

Перестаньте спрашивать, заменит ли ИИ писателей или студии. Эти вопросы не помогут вам ничего создать.

Если вы инженер или архитектор, вы должны задать другой вопрос. Как выглядит бэкенд, когда контент создается по запросу, а не производится один раз для последующего распространения?

Модель — это самая простая часть. Сложности заключаются в задержке (latency), происхождении (provenance) и стоимости.

  1. Интерактивность — это проблема потоковой передачи

Пакетная генерация — это просто. Вы можете рендерить клип всю ночь. Но если пользователь взаимодействует с персонажем, ответ должен прийти в течение 200 мс.

Чтобы достичь этой цели, недостаточно просто вызвать API. Вы должны управлять бюджетом задержки:

  • Сетевой цикл (round trip): 40 мс
  • Токенизация: 10 мс
  • Инференс модели: 110 мс
  • Пост-обработка: 25 мс
  • Запас на джиттер: 15 мс

Вам понадобятся edge-вычисления, повторное использование KV-кэша и спекулятивное декодирование. Ваш ИИ-проект превращается в проект по распределенным системам.

  1. Происхождение (provenance) — это не то, о чем стоит думать потом

Когда контент является синтетическим, вы должны знать, кто его создал и на чем он был обучен. Это нельзя исправить позже. Если вы сгенерируете миллион ассетов без отслеживания происхождения (lineage), эта история будет потеряна навсегда.

Вы должны встроить provenance в свою модель данных. Фиксируйте атрибуцию и подписи в момент генерации. Сохраняйте их в своей схеме. Это позволит вам отвечать на юридические вопросы или вопросы по роялти со скоростью выполнения запроса.

  1. Экономика — это задача производства

Генеративный текст измеряется стоимостью за токен. Генеративное видео — стоимостью за минуту.

Минута 4K-видео имеет реальную стоимость в GPU-секундах. Большинство компаний запускают пилотные проекты, которые выглядят отлично, но терпят неудачу при масштабировании из-за слишком высокой стоимости.

Чтобы победить, вы должны организовать процесс инференса как на заводе. Отслеживайте загрузку (utilization) и выход годной продукции (yield). Используйте самую маленькую модель, которая соответствует вашему порогу качества. Кэшируйте сгенерированные сегменты, чтобы экономить деньги.

Модель попадает в заголовки. Архитектура определяет, что на самом деле будет выпущено в продакшн.

Резюме для вашего следующего дизайн-ревью:

  • Рассматривайте интерактивность как задачу построения потоковых систем.
  • С первого дня сделайте provenance подписанным и сохраняемым полем.
  • Измеряйте стоимость за каждую доставленную минуту, чтобы гарантировать жизнеспособность вашей функции.

Source: https://dev.to/sauvast/the-real-architecture-behind-ai-entertainment-latency-provenance-and-cost-per-minute-bg9

Optional learning community: https://t.me/GyaanSetuAi