AIエンターテインメントの背後にある真のアーキテクチャ
AIがライターやスタジオに取って代わるかどうかを問うのはやめましょう。そのような問いは、何かを構築する助けにはなりません。
エンジニアやアーキテクトであれば、異なる問いを立てるべきです。一度制作して配信するのではなく、オンデマンドでコンテンツが生成される場合、バックエンドはどのような姿になるべきでしょうか?
モデルは容易な部分です。困難なのは、レイテンシ、プロベナンス(由来)、そしてコストです。
- インタラクティビティはストリーミングの問題である
バッチ生成は容易です。クリップを一晩かけてレンダリングすることはできます。しかし、ユーザーがキャラクターと対話する場合、レスポンスは200ミリ秒以内に発生しなければなりません。
この目標を達成するには、単にAPIを呼び出すだけでは不十分です。レイテンシ・バジェット(許容遅延時間)を管理する必要があります。
- ネットワークのラウンドトリップ: 40ms
- トークナイゼーション: 10ms
- モデルの推論: 110ms
- 後処理: 25ms
- ジッターマージン: 15ms
エッジ配置、KVキャッシュの再利用、そして投機的デコーディング(speculative decoding)が必要です。あなたのAIプロジェクトは、今や分散システムのプロジェクトなのです。
- プロベナンスは後回しにしてよいものではない
コンテンツが合成されたものである場合、誰がそれを作り、何がそれを学習させたのかを知っておく必要があります。これは後から修正できるものではありません。リネージ(系統)のないアセットを100万個生成してしまったら、その履歴は永遠に失われます。
データモデルにプロベナンスを組み込まなければなりません。生成の瞬間に帰属情報(attribution)と署名をキャプチャし、スキーマに保存してください。これにより、法的問題やロイヤリティに関する問いに、クエリ速度で回答できるようになります。
- 経済性は製造の問題である
生成テキストはトークンあたりのコストを使用します。生成ビデオは分あたりのコストを使用します。
4Kビデオの1分間には、GPU秒単位の実際のコストがかかります。多くの企業が、見た目は素晴らしいものの、コストが高すぎるためにスケールアップに失敗するパイロット運用を行っています。
成功するためには、推論を工場のように計測(instrument)しなければなりません。利用率と歩留まりを追跡してください。品質基準を満たす最小のモデルを使用してください。コストを節約するために、生成されたセグメントをキャッシュしてください。
モデルはヘッドラインを飾りますが、実際に製品としてリリースできるかどうかを決めるのはアーキテクチャです。
次回のデザインレビューに向けた要約:
- インタラクティビティをストリーミングシステムの課題として扱う。
- 初日からプロベナンスを署名済みの保存フィールドにする。
- 機能が存続できるよう、配信分あたりのコストを測定する。
Optional learning community: https://t.me/GyaanSetuAi
