このRAG構成でAIコストを60%削減した方法

3ヶ月前、私はクライアントとの契約を打ち切ろうとしていました。

クライアントが厄介だったからではありません。彼らのLLM利用料が私の利益を食いつぶしていたからです。RAGシステムの構築費用として4,800ドルを受け取りましたが、運用2ヶ月目には、稼働を維持するためだけにAPI費用として3,100ドルも費やしていました。これはビジネスではありません。慈善活動です。

私はパイプライン全体を再構築しました。DeepSeekに切り替え、ベクトルストアの構成を変更したのです。現在、同じワークロードにかかるコストは月額410ドルです。精度と品質は変わりません。コストを約87%削減できました。

以下がその手法です。

ほとんどのAIボットの問題は、エンジニアリングではありません。クライアントが週に4万件ものクエリを実行する場合に、いかに利益を維持するかという点です。以前はGPT-4oのような「安全な」モデルを使用していました。しかし、それらのモデルでは住宅ローンすら払えません。

私はすべてのリクエストを追跡し始めました。トークン数とキャッシュヒット率を確認したところ、支出の大部分が些細な質問に費やされていることに気づきました。「返金ポリシーはどうなっていますか?」といった質問が繰り返されるのです。これらの質問は、毎回同じデータにアクセスします。

旧構成では、すべてにGPT-4oを使用していました。単純な質問一つにつき0.014ドルかかっていました。月間4万件の質問のうち、簡単なものだけで560ドルものコストがかかっていたのです。

新しい構成では、スマートなルーティング戦略を採用しています。

• トラフィックの80%をDeepSeek V4 Flashに割り当て。 • 複雑なタスクの20%をDeepSeek V4 Proに割り当て。 • 些細なタスクはGLM-4 Plusに割り当て。

コストの差は圧倒的です。DeepSeek V4 Flashの入力トークン100万件あたりのコストは0.27ドルですが、GPT-4oは2.50ドルです。

コストを低く抑える方法は以下の通りです。

キャッシュにはChromaDBを使用しています。質問の多くが繰り返されるサポートボットの場合、これにより多くのクエリが実質的に無料になります。

構築費用で富を築くことはできません。クライアントがあなたのシステムに依存するようになった後の、月額のリテイナー(保守運用費)で富を築くのです。

出典: https://dev.to/bolddeck/i-cut-my-ai-costs-60-with-this-rag-setup-full-breakdown-2a0