「真実の源泉(Source of Truth)」問題
エンタープライズAIチームは、一つの困難な問いに直面しています。
「正しい答えは何ですか?」
この問いはモデルから生まれるものではありません。ビジネスから生まれるものです。
小規模であれば、これは簡単に感じられます。しかし、エンタープライズ規模になると、それは巨大なアーキテクチャ上の問題となります。ほとんどの企業には、単一の「真実の源泉(source of truth)」は存在しません。いくつも存在しているのです。
企業は多くのシステムを使用しています:
- CRM
- ERP
- チケッティングシステム
- 社内データベース
- スプレッドシート
- ドキュメンテーションプラットフォーム
各システムはデータを保持しています。各システムは時間の経過とともに変化します。一人の顧客が、3つの異なる場所で、3つの異なるステータスとして存在していることもあるのです。
AIがこれらの問題を作り出しているわけではありません。AIがそれらを露呈させているのです。
AIが登場する前は、人間が乱雑なデータを扱っていました。どのレポートが古いか、どのデータベースを信頼すべきかを、従業員は知っていました。
AIにはこの直感が欠けています。AIが複数のソースからデータを取得するとき、それは「真実」のあらゆるバージョンを同時に目にすることになります。
あるシステムで顧客が「Active(有効)」とされており、別のシステムで「Suspended(停止中)」とされている場合、AIは壁に突き当たります。どちらのシステムも壊れているわけではありません。問題は「所有権(ownership)」にあります。
よくある間違いは、データが増えればAIが向上すると考えることです。多くの場合、データが増えるほど混乱は増大します。統合が増えれば、重複や衝突も増えるのです。
検索(Retrieval)システムは関連するデータを見つけますが、権威ある(authoritative)データを見つけるわけではありません。
あなたは決定しなければなりません:
- どのシステムが顧客ステータスの所有権を持つか?
- どのシステムが価格の所有権を持つか?
- どのシステムが在庫の所有権を持つか?
これらの決定はアルゴリズムではなく、ガバナンスに属するものです。
これを解決するには、ソースの階層(source hierarchy)を定義する必要があります。すべてのシステムが平等なわけではありません。以下のようにラベル付けする必要があります:
- プライマリ・ソース(Primary source)
- セカンダリ・ソース(Secondary source)
- フォールバック・ソース(Fallback source)
これにより、推測の余地がなくなります。モデルがデータを見る前に、インフラストラクチャが「真実」を決定するのです。
エンタープライズAIの成功は、モデルの選択よりもガバナンスに依存します。所有権を定義しなければ、以下のような事態に直面することになります:
- 一貫性のない回答
- 矛盾する結果
- 信頼できない自動化
- ユーザーの信頼低下
ユーザーがAIの意見が二転三転するのを目にすれば、利用をやめてしまうでしょう。
AIを「検索の問題」として扱うのはやめましょう。「データの所有権の問題」として扱い始めてください。
最も困難な問いは、モデルが何を答えるべきかではありません。最も困難な問いは、何が実際に真実であるか、なのです。
Source: https://dev.to/karan2598/the-source-of-truth-problem-every-enterprise-ai-team-faces-2m2k
Optional learning community: https://t.me/GyaanSetuAi