AIエンターテインメントの背後にある真のアーキテクチャ

AIがライターやスタジオに取って代わるかどうかを問うのはやめましょう。そのような問いは、何かを構築する助けにはなりません。

エンジニアやアーキテクトであれば、異なる問いを立てるべきです。一度制作して配信するのではなく、オンデマンドでコンテンツが生成される場合、バックエンドはどのような姿になるべきでしょうか?

モデルは容易な部分です。困難なのは、レイテンシ、プロベナンス(由来)、そしてコストです。

  1. インタラクティビティはストリーミングの問題である

バッチ生成は容易です。クリップを一晩かけてレンダリングすることはできます。しかし、ユーザーがキャラクターと対話する場合、レスポンスは200ミリ秒以内に発生しなければなりません。

この目標を達成するには、単にAPIを呼び出すだけでは不十分です。レイテンシ・バジェット(許容遅延時間)を管理する必要があります。

  • ネットワークのラウンドトリップ: 40ms
  • トークナイゼーション: 10ms
  • モデルの推論: 110ms
  • 後処理: 25ms
  • ジッターマージン: 15ms

エッジ配置、KVキャッシュの再利用、そして投機的デコーディング(speculative decoding)が必要です。あなたのAIプロジェクトは、今や分散システムのプロジェクトなのです。

  1. プロベナンスは後回しにしてよいものではない

コンテンツが合成されたものである場合、誰がそれを作り、何がそれを学習させたのかを知っておく必要があります。これは後から修正できるものではありません。リネージ(系統)のないアセットを100万個生成してしまったら、その履歴は永遠に失われます。

データモデルにプロベナンスを組み込まなければなりません。生成の瞬間に帰属情報(attribution)と署名をキャプチャし、スキーマに保存してください。これにより、法的問題やロイヤリティに関する問いに、クエリ速度で回答できるようになります。

  1. 経済性は製造の問題である

生成テキストはトークンあたりのコストを使用します。生成ビデオは分あたりのコストを使用します。

4Kビデオの1分間には、GPU秒単位の実際のコストがかかります。多くの企業が、見た目は素晴らしいものの、コストが高すぎるためにスケールアップに失敗するパイロット運用を行っています。

成功するためには、推論を工場のように計測(instrument)しなければなりません。利用率と歩留まりを追跡してください。品質基準を満たす最小のモデルを使用してください。コストを節約するために、生成されたセグメントをキャッシュしてください。

モデルはヘッドラインを飾りますが、実際に製品としてリリースできるかどうかを決めるのはアーキテクチャです。

次回のデザインレビューに向けた要約:

  • インタラクティビティをストリーミングシステムの課題として扱う。
  • 初日からプロベナンスを署名済みの保存フィールドにする。
  • 機能が存続できるよう、配信分あたりのコストを測定する。

Source: https://dev.to/sauvast/the-real-architecture-behind-ai-entertainment-latency-provenance-and-cost-per-minute-bg9

Optional learning community: https://t.me/GyaanSetuAi