このRAG構成でAIコストを60%削減した方法
3ヶ月前、私はクライアントとの契約を打ち切ろうとしていました。
クライアントが厄介だったからではありません。彼らのLLM利用料が私の利益を食いつぶしていたからです。RAGシステムの構築費用として4,800ドルを受け取りましたが、運用2ヶ月目には、稼働を維持するためだけにAPI費用として3,100ドルも費やしていました。これはビジネスではありません。慈善活動です。
私はパイプライン全体を再構築しました。DeepSeekに切り替え、ベクトルストアの構成を変更したのです。現在、同じワークロードにかかるコストは月額410ドルです。精度と品質は変わりません。コストを約87%削減できました。
以下がその手法です。
ほとんどのAIボットの問題は、エンジニアリングではありません。クライアントが週に4万件ものクエリを実行する場合に、いかに利益を維持するかという点です。以前はGPT-4oのような「安全な」モデルを使用していました。しかし、それらのモデルでは住宅ローンすら払えません。
私はすべてのリクエストを追跡し始めました。トークン数とキャッシュヒット率を確認したところ、支出の大部分が些細な質問に費やされていることに気づきました。「返金ポリシーはどうなっていますか?」といった質問が繰り返されるのです。これらの質問は、毎回同じデータにアクセスします。
旧構成では、すべてにGPT-4oを使用していました。単純な質問一つにつき0.014ドルかかっていました。月間4万件の質問のうち、簡単なものだけで560ドルものコストがかかっていたのです。
新しい構成では、スマートなルーティング戦略を採用しています。
• トラフィックの80%をDeepSeek V4 Flashに割り当て。 • 複雑なタスクの20%をDeepSeek V4 Proに割り当て。 • 些細なタスクはGLM-4 Plusに割り当て。
コストの差は圧倒的です。DeepSeek V4 Flashの入力トークン100万件あたりのコストは0.27ドルですが、GPT-4oは2.50ドルです。
コストを低く抑える方法は以下の通りです。
- 積極的にキャッシュする。2回以上聞かれた質問はすべてキャッシュします。キャッシュヒット率が40%になれば、数千ドルの節約になります。
- 難易度に応じてルーティングする。一言で済む回答に高価なモデルを使用しないでください。
- フォールバックパスを用意する。プロバイダーがダウンした場合に備え、2つ目のモデルを準備しておきます。
- 品質を監視する。精度を高く維持するために、毎週スポットチェックを行っています。
キャッシュにはChromaDBを使用しています。質問の多くが繰り返されるサポートボットの場合、これにより多くのクエリが実質的に無料になります。
構築費用で富を築くことはできません。クライアントがあなたのシステムに依存するようになった後の、月額のリテイナー(保守運用費)で富を築くのです。
出典: https://dev.to/bolddeck/i-cut-my-ai-costs-60-with-this-rag-setup-full-breakdown-2a0