Справжня архітектура ШІ-розваг
Перестаньте питати, чи замінить ШІ письменників або студії. Ці питання не допоможуть вам нічого побудувати.
Якщо ви інженер або архітектор, ви маєте поставити інше питання. Як виглядає бекенд, коли контент створюється за запитом, а не виробляється один раз для подальшого розповсюдження?
Модель — це найпростіша частина. Складними ж є затримка (latency), походження (provenance) та вартість.
- Інтерактивність — це проблема стрімінгу
Пакетна генерація — це легко. Ви можете рендерити кліп протягом ночі. Але якщо користувач взаємодіє з персонажем, відповідь має з'явитися протягом 200 мс.
Щоб досягти цієї мети, недостатньо просто викликати API. Ви повинні керувати бюджетом затримки:
- Мережева затримка (round trip): 40 мс
- Токенізація: 10 мс
- Інференс моделі: 110 мс
- Постпроцесинг: 25 мс
- Запас на джиттер: 15 мс
Вам потрібні edge-розміщення, повторне використання KV-кешу та спекулятивне декодування. Ваш ШІ-проєкт тепер стає проєктом із розподілених систем.
- Походження (provenance) — це не те, про що варто думати в останню чергу
Коли контент є синтетичним, ви повинні знати, хто його створив і на чому його було навчено. Це неможливо виправити згодом. Якщо ви згенеруєте мільйон активів без історії походження (lineage), ця історія зникне назавжди.
Ви повинні інтегрувати походження у свою модель даних. Фіксуйте атрибуцію та підписи в момент генерації. Зберігайте їх у своїй схемі. Це дозволить вам відповідати на юридичні питання або питання щодо роялті зі швидкістю запиту.
- Економіка — це проблема виробництва
Генеративний текст використовує вартість за токен. Генеративне відео використовує вартість за хвилину.
Хвилина 4K-відео має реальну вартість у GPU-секундах. Більшість компаній запускають пілотні проєкти, які виглядають чудово, але зазнають невдачі при масштабуванні, оскільки вартість занадто висока.
Щоб перемогти, ви повинні налаштувати інференс як на заводі. Відстежуйте рівень використання та вихід продукції. Використовуйте найменшу модель, яка відповідає вашому порогу якості. Кешуйте згенеровані сегменти, щоб заощадити гроші.
Модель потрапляє в заголовки. Архітектура визначає, що насправді вийде у реліз.
Резюме для вашого наступного design review:
- Розглядайте інтерактивність як виклик для стрімінгових систем.
- З першого дня робіть походження підписаним полем, що зберігається.
- Вимірюйте вартість за кожну доставлену хвилину, щоб гарантувати життєздатність вашої функції.
Optional learning community: https://t.me/GyaanSetuAi
