GenAIスタックの解明

従来のソフトウェア設計は決定論に依存しています。入力を送信し、スキーマに照らして検証し、予測可能な出力を期待します。

生成AIはこれを変えます。大規模言語モデル(LLM)は確率的なエンジンです。これらは確率に基づいてテキストを予測します。

LLMを魔法の箱のように扱うと、プロダクション環境のアプリケーションは失敗します。LLMを、不安定で非決定論的なサードパーティAPIとして扱うことで、信頼性の高いシステムを構築できます。

LLMには、管理すべき特定の制約があります:

  • ペイロードサイズ:モデルにはコンテキストウィンドウと呼ばれる厳格な制限があります。無制限にデータを送信することはできません。
  • レイテンシ:データベースの読み取りはミリ秒単位ですが、LLMの推論には数秒かかります。これに対処するには、非同期キューやストリーミングが必要です。
  • ハルシネーション(幻覚):モデルに特定のデータが不足している場合、もっともらしいが誤った回答を捏造します。

高コストな再学習を行わずにデータの問題を解決するために、Retrieval-Augmented Generation(RAG)を使用します。

RAGは、独自のデータベースをAPIに持ち込むことに相当します。モデルがあなたのデータを知っていることを期待するのではなく、バックエンドが関連するコンテキストを取得し、それをプロンプトに注入します。

RAGのワークフロー:

  1. ユーザーがプロンプトを送信する。
  2. システムがベクトルデータベースにクエリを実行する。
  3. システムが意味的に類似したテキストチャンクを見つける。
  4. システムがこれらのチャンクをプロンプトに注入する。
  5. LLMが根拠となるコンテキストを処理する。

これにより、LLMは知識生成器からコンテキスト処理器へと変わります。これにより、エラーを大幅に削減できます。

LLMの出力を自動化サービスで活用するには、構造化出力(Structured Outputs)が必要です。マイクロサービスのために、対話的なテキストを正規表現(regex)で解析することはできません。JSONのような正確なスキーマ定義を渡す必要があります。これにより、モデルがコードで読み取り可能な厳格なレイアウトに従うことが保証されます。

プロダクションレベルのAIを構築するには、線形なプロンプトから堅牢なシステム設計へと移行する必要があります。

出典: https://dev.to/ingit_bhatnagar/de-mystifying-the-genai-stack-from-llms-to-rag-a-systems-perspective-4jp8

オプションの学習コミュニティ: https://t.me/GyaanSetuAi