「真実の源泉(Source of Truth)」問題

エンタープライズAIチームは、一つの困難な問いに直面しています。

「正しい答えは何ですか?」

この問いはモデルから生まれるものではありません。ビジネスから生まれるものです。

小規模であれば、これは簡単に感じられます。しかし、エンタープライズ規模になると、それは巨大なアーキテクチャ上の問題となります。ほとんどの企業には、単一の「真実の源泉(source of truth)」は存在しません。いくつも存在しているのです。

企業は多くのシステムを使用しています:

  • CRM
  • ERP
  • チケッティングシステム
  • 社内データベース
  • スプレッドシート
  • ドキュメンテーションプラットフォーム

各システムはデータを保持しています。各システムは時間の経過とともに変化します。一人の顧客が、3つの異なる場所で、3つの異なるステータスとして存在していることもあるのです。

AIがこれらの問題を作り出しているわけではありません。AIがそれらを露呈させているのです。

AIが登場する前は、人間が乱雑なデータを扱っていました。どのレポートが古いか、どのデータベースを信頼すべきかを、従業員は知っていました。

AIにはこの直感が欠けています。AIが複数のソースからデータを取得するとき、それは「真実」のあらゆるバージョンを同時に目にすることになります。

あるシステムで顧客が「Active(有効)」とされており、別のシステムで「Suspended(停止中)」とされている場合、AIは壁に突き当たります。どちらのシステムも壊れているわけではありません。問題は「所有権(ownership)」にあります。

よくある間違いは、データが増えればAIが向上すると考えることです。多くの場合、データが増えるほど混乱は増大します。統合が増えれば、重複や衝突も増えるのです。

検索(Retrieval)システムは関連するデータを見つけますが、権威ある(authoritative)データを見つけるわけではありません。

あなたは決定しなければなりません:

  • どのシステムが顧客ステータスの所有権を持つか?
  • どのシステムが価格の所有権を持つか?
  • どのシステムが在庫の所有権を持つか?

これらの決定はアルゴリズムではなく、ガバナンスに属するものです。

これを解決するには、ソースの階層(source hierarchy)を定義する必要があります。すべてのシステムが平等なわけではありません。以下のようにラベル付けする必要があります:

  • プライマリ・ソース(Primary source)
  • セカンダリ・ソース(Secondary source)
  • フォールバック・ソース(Fallback source)

これにより、推測の余地がなくなります。モデルがデータを見る前に、インフラストラクチャが「真実」を決定するのです。

エンタープライズAIの成功は、モデルの選択よりもガバナンスに依存します。所有権を定義しなければ、以下のような事態に直面することになります:

  • 一貫性のない回答
  • 矛盾する結果
  • 信頼できない自動化
  • ユーザーの信頼低下

ユーザーがAIの意見が二転三転するのを目にすれば、利用をやめてしまうでしょう。

AIを「検索の問題」として扱うのはやめましょう。「データの所有権の問題」として扱い始めてください。

最も困難な問いは、モデルが何を答えるべきかではありません。最も困難な問いは、何が実際に真実であるか、なのです。

Source: https://dev.to/karan2598/the-source-of-truth-problem-every-enterprise-ai-team-faces-2m2k

Optional learning community: https://t.me/GyaanSetuAi