p99 SLAを達成しながら、AI APIのコストを半分に削減した方法
私たちのAIコストは急激に膨れ上がっていました。CFOからは、持続不可能なバーンレートだと言われました。当時、私たちはあらゆる用途にGPT-4oを使用していました。性能は十分でしたが、コストが高すぎ、p99レイテンシも不安定でした。
私は、AIモデルの選定をシステム設計の問題として捉えることにしました。「最高のモデル」を探すのをやめ、「私たちの特定のSLAに最適なモデル」を探し始めたのです。
まず、明確な目標を設定しました: • チャットのp99レイテンシを1.5秒未満に • 稼働率99.9% • マルチリージョンでのフェイルオーバー • ピーク負荷の3倍のスループット容量
これらの数値が決まると、解決策は明確になりました。トークンあたりの単価が最も安いモデルが、必ずしも本番環境における最良の選択とは限りません。安価なモデルのせいでレイテンシが2倍になれば、ユーザーを失うことになるからです。
多くのモデルを比較したところ、価格差は圧倒的でした。GPT-4oの出力トークン100万件あたりのコストは10.00ドルですが、GLM-4 Plusは0.80ドルです。テストの結果、要約や抽出といった私たちの特定のタスクにおいて、GLM-4 PlusはGPT-4oとほぼ同等のパフォーマンスを発揮することが分かりました。
これを管理するためにルーティング層を構築しました。システムは以下のルールに従います: • ワークロードの種類に基づいてリクエストをルーティングする • レイテンシが急増した場合はフォールバックモデルを使用する • トラフィックを複数のリージョンに分散させる • 頻繁なリクエストをキャッシュする
また、Redisキャッシュも導入しました。これにより、1週間でヒット率が40%に達しました。その結果、繰り返し行われるクエリへのトークン消費が抑えられ、レイテンシは1.4秒から200ミリ秒へと短縮されました。
結果: • 月間の推論コストが58%減少 • p99レイテンシが1.6秒から1.18秒に低下 • 稼働率は99.95%を維持 • キャッシュヒット率が42%に到達
学んだ3つの教訓:
- 独自の評価スイートを構築すること。一般的なベンチマークを鵜呑みにせず、実際のプロダクションデータを使用してください。
- レート制限を注意深く監視すること。リージョンごとのトラフィックによって、予期せぬスパイクが発生することがあります。
- キルスイッチを構築すること。不適切なプロンプトによってトークン使用量が激増することがあります。最大トークン数の上限設定により、一度14,000ドルの損失を防げたことがあります。
もしAIのコストが高すぎるなら、まずはSLAを定義してください。実際のトラフィックから評価スイートを構築しましょう。その上で、現在は検討に入れていないモデルの価格を確認してみてください。
Source: https://dev.to/bolddeck/how-i-cut-our-ai-api-bill-in-half-while-hitting-p99-slas-1l05
Optional learning community: https://t.me/GyaanSetuAi