AIの請求額が高いのは、モデルの問題ではありません。アーキテクチャの問題です。

LLMのコストが増大している場合、より安価なモデルへの切り替えを検討していることでしょう。例えば、GPT-4からGPT-4-miniへ移行するなどです。これは多少の助けにはなりますが、根本的な問題を解決することは稀です。

真の問題はワークフローにあります。多くの人は、あらゆるステップをLLM経由で処理しようとします。本来、言語的な推論を必要としないタスクに対しても、推論機能を使ってしまっているのです。

あらゆるAIワークフローには、4つの構成要素があります。

• トリガー:作業を開始する。コストはほぼゼロ。 • 決定論的ML(Deterministic ML):データの分類やスコアリングを行う。これは安価。 • LLM:読み取り、書き込み、推論を行う。これは高価。 • ツール/API:データの取得や書き込みを行う。これは安価。

決定論的MLとLLMの間には、巨大な格差があります。LLMは、単純な分類器に比べて100倍から1000倍ものコストがかかることがあります。各ステップに適切なツールを選択しなければ、結果として常に高価な方を選んでしまうことになります。

サポートチケットシステムを例に見てみましょう。

不適切な設計では、チケットの全内容をLLMに送信します。LLMに対して、意図の分類、チケットの振り分け、返信のドラフト作成、そしてCRMの更新までを依頼します。これはコストがかかりすぎです。分類にLLMは必要ありません。テキストをカテゴリにマッピングする単純なモデルがあれば十分なのです。

より優れた設計は、以下のようになります。

  1. トリガー:チケットが届く。
  2. 決定論的ML:高速で安価なモデルが、チケットが請求に関するものか、技術的なものか、あるいはスパムかを判断する。
  3. LLM:有効なチケットの返信ドラフト作成にのみ使用する。
  4. ツール/API:システムがCRMを更新する。

この構成であれば、スパムチケットがLLMに到達することはありません。無益なタスクに対して「LLM税」を支払う必要がなくなるのです。

アーキテクチャを正しく設計すれば、モデルを変更する以前に、最も高価な呼び出しを排除できます。

コストを下げるために、以下のステップに従ってください。

  • ワークフローをマッピングする。どのステップに真の推論が必要で、どのステップが単なる分類や抽出なのかを特定します。
  • 決定論的なステップをプロンプトから外す。ルーティングやスコアリングには、より高速で安価な手法を使用します。
  • LLMにゲート(関門)を設ける。必要のないタスクに対してレスポンスを生成させないようにします。
  • モデルのサイズ評価は最後に行う。アーキテクチャをスリムにした上で、生成ステップにのみ、より小さなモデルを選択します。

どのモデルがトークン単価として最安かという議論はやめましょう。高価なエンジンを必要な時にだけ使うアーキテクチャの構築を始めるのです。

Source: https://dev.to/bakshiyogesh/your-ai-bill-isnt-a-model-problem-its-an-architecture-problem-1ole

Optional learning community: https://t.me/GyaanSetuAi