このRAG構成でAIコストを60%削減した方法

📅3 hours ago⏱2 min read

このRAG構成でAIコストを60%削減した方法

3ヶ月前、私はクライアントとの契約を打ち切ろうとしていました。

クライアントが厄介だったからではありません。彼らのLLM利用料が私の利益を食いつぶしていたからです。RAGシステムの構築費用として4,800ドルを受け取りましたが、運用2ヶ月目には、稼働を維持するためだけにAPI費用として3,100ドルも費やしていました。これはビジネスではありません。慈善活動です。

私はパイプライン全体を再構築しました。DeepSeekに切り替え、ベクトルストアの構成を変更したのです。現在、同じワークロードにかかるコストは月額410ドルです。精度と品質は変わりません。コストを約87%削減できました。

以下がその手法です。

ほとんどのAIボットの問題は、エンジニアリングではありません。クライアントが週に4万件ものクエリを実行する場合に、いかに利益を維持するかという点です。以前はGPT-4oのような「安全な」モデルを使用していました。しかし、それらのモデルでは住宅ローンすら払えません。

私はすべてのリクエストを追跡し始めました。トークン数とキャッシュヒット率を確認したところ、支出の大部分が些細な質問に費やされていることに気づきました。「返金ポリシーはどうなっていますか？」といった質問が繰り返されるのです。これらの質問は、毎回同じデータにアクセスします。

旧構成では、すべてにGPT-4oを使用していました。単純な質問一つにつき0.014ドルかかっていました。月間4万件の質問のうち、簡単なものだけで560ドルものコストがかかっていたのです。

新しい構成では、スマートなルーティング戦略を採用しています。

• トラフィックの80%をDeepSeek V4 Flashに割り当て。 • 複雑なタスクの20%をDeepSeek V4 Proに割り当て。 • 些細なタスクはGLM-4 Plusに割り当て。

コストの差は圧倒的です。DeepSeek V4 Flashの入力トークン100万件あたりのコストは0.27ドルですが、GPT-4oは2.50ドルです。

コストを低く抑える方法は以下の通りです。

積極的にキャッシュする。2回以上聞かれた質問はすべてキャッシュします。キャッシュヒット率が40%になれば、数千ドルの節約になります。
難易度に応じてルーティングする。一言で済む回答に高価なモデルを使用しないでください。
フォールバックパスを用意する。プロバイダーがダウンした場合に備え、2つ目のモデルを準備しておきます。
品質を監視する。精度を高く維持するために、毎週スポットチェックを行っています。

キャッシュにはChromaDBを使用しています。質問の多くが繰り返されるサポートボットの場合、これにより多くのクエリが実質的に無料になります。

構築費用で富を築くことはできません。クライアントがあなたのシステムに依存するようになった後の、月額のリテイナー（保守運用費）で富を築くのです。

出典: https://dev.to/bolddeck/i-cut-my-ai-costs-60-with-this-rag-setup-full-breakdown-2a0

このRAG構成でAIコストを60%削減した方法

Continue reading

𝗢𝗣𝗲𝗻𝗔𝗜 𝗜𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻: 𝗦𝘁𝗼𝗽 𝗪𝗮𝘀𝘁𝗶𝗻𝗴 𝗠𝗼𝗻𝗲𝘆

𝗦𝘁𝗼𝗽 𝗪𝗮𝘀𝘁𝗶𝗻𝗴 𝗠𝗼𝗻𝗲𝘆 𝗼𝗻 𝗔𝗜 𝗔𝗣𝗜𝘀

𝗜 𝗔𝗦𝗞𝗘𝗗 𝗙𝗢𝗥 $𝟓𝟎𝟎/𝗠𝗢𝗡𝗧𝗛. 𝗠𝗬 𝗖𝗢𝗠𝗣𝗔𝗡𝗬 𝗦𝗣𝗘𝗡𝗧 $𝟒𝟕𝟎𝗞 𝗢𝗡 𝗔𝗜 𝗜𝗡𝗦𝗧𝗘𝗔𝗗. 𝗧𝗛𝗘𝗡 𝗜

𝗘𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴 𝗟𝗶𝗳𝗲𝗰𝘆𝗰𝗹𝗲: 𝗖𝗼𝘀𝘁 𝘃𝘀 𝗙𝗿𝗲𝘀𝗵𝗻𝗲𝘀𝘀

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗔𝗻 𝗟𝗟𝗠 𝗔𝗻𝗱 𝗧𝗵𝗲𝗻 𝗦𝗮𝗶𝗱 𝗡𝗼