𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

Translated for your language. 原文を読む.

AI-assisted draft.

昨日2分で読めます

p99 SLAを達成しながら、AI APIのコストを半分に削減した方法

私たちのAIコストは急激に膨れ上がっていました。CFOからは、持続不可能なバーンレートだと言われました。当時、私たちはあらゆる用途にGPT-4oを使用していました。性能は十分でしたが、コストが高すぎ、p99レイテンシも不安定でした。

私は、AIモデルの選定をシステム設計の問題として捉えることにしました。「最高のモデル」を探すのをやめ、「私たちの特定のSLAに最適なモデル」を探し始めたのです。

まず、明確な目標を設定しました： • チャットのp99レイテンシを1.5秒未満に • 稼働率99.9% • マルチリージョンでのフェイルオーバー • ピーク負荷の3倍のスループット容量

これらの数値が決まると、解決策は明確になりました。トークンあたりの単価が最も安いモデルが、必ずしも本番環境における最良の選択とは限りません。安価なモデルのせいでレイテンシが2倍になれば、ユーザーを失うことになるからです。

多くのモデルを比較したところ、価格差は圧倒的でした。GPT-4oの出力トークン100万件あたりのコストは10.00ドルですが、GLM-4 Plusは0.80ドルです。テストの結果、要約や抽出といった私たちの特定のタスクにおいて、GLM-4 PlusはGPT-4oとほぼ同等のパフォーマンスを発揮することが分かりました。

これを管理するためにルーティング層を構築しました。システムは以下のルールに従います： • ワークロードの種類に基づいてリクエストをルーティングする • レイテンシが急増した場合はフォールバックモデルを使用する • トラフィックを複数のリージョンに分散させる • 頻繁なリクエストをキャッシュする

また、Redisキャッシュも導入しました。これにより、1週間でヒット率が40%に達しました。その結果、繰り返し行われるクエリへのトークン消費が抑えられ、レイテンシは1.4秒から200ミリ秒へと短縮されました。

結果： • 月間の推論コストが58%減少 • p99レイテンシが1.6秒から1.18秒に低下 • 稼働率は99.95%を維持 • キャッシュヒット率が42%に到達

学んだ3つの教訓：

独自の評価スイートを構築すること。一般的なベンチマークを鵜呑みにせず、実際のプロダクションデータを使用してください。
レート制限を注意深く監視すること。リージョンごとのトラフィックによって、予期せぬスパイクが発生することがあります。
キルスイッチを構築すること。不適切なプロンプトによってトークン使用量が激増することがあります。最大トークン数の上限設定により、一度14,000ドルの損失を防げたことがあります。

もしAIのコストが高すぎるなら、まずはSLAを定義してください。実際のトラフィックから評価スイートを構築しましょう。その上で、現在は検討に入れていないモデルの価格を確認してみてください。

Source: https://dev.to/bolddeck/how-i-cut-our-ai-api-bill-in-half-while-hitting-p99-slas-1l05

Optional learning community: https://t.me/GyaanSetuAi

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

p99 SLAを達成しながら、AI APIのコストを半分に削減した方法

続きを読む

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗣𝗜 𝗖𝗼𝘀𝘁𝘀 𝗕𝘆 𝟳𝟬%

このRAG構成でAIコストを60%削減した方法

AI機能による出費をどう食い止めたか

𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁'𝘀 𝗧𝗼𝗸𝗲𝗻 𝗕𝗶𝗹𝗹 𝗯𝘆 𝟲𝟮% 𝗶𝗻 𝗢𝗻𝗲 𝗪𝗲𝗲𝗸𝗲𝗻𝗱

𝟳 𝗪𝗮𝘆𝘀 𝘁𝗼 𝗥𝗲𝗱𝘂𝗰𝗲 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗕𝗶𝗹𝗹