单一事实来源问题

企业级 AI 团队面临着一个难题。

“什么是正确答案?”

这个问题并非来自模型,而是来自业务。

在小规模应用时,这看起来很简单。但在企业规模下,它变成了一个巨大的架构问题。大多数公司并没有单一的事实来源,而是拥有许多个。

公司使用许多系统:

  • CRM
  • ERP
  • 工单系统
  • 内部数据库
  • 电子表格
  • 文档平台

每个系统都存储着数据。每个系统都会随时间而变化。同一个客户可能存在于三个不同的地方,并拥有三种不同的状态。

AI 并不会制造这些问题,它只是暴露了这些问题。

在 AI 出现之前,人类负责处理混乱的数据。员工知道哪些报告是过时的,知道该信任哪些数据库。

AI 缺乏这种直觉。当 AI 从多个来源提取数据时,它会同时看到每一个版本的“真相”。

如果一个系统显示客户处于“活跃”状态,而另一个系统显示为“暂停”,AI 就会陷入僵局。这两个系统都没有故障,问题在于归属权。

一个常见的错误是认为更多的数据能提升 AI 的表现。通常情况下,更多的数据反而会带来更多混乱。更多的集成会导致更多的重复和冲突。

检索系统找到的是相关数据,而不是权威数据。

你必须决定:

  • 哪个系统拥有客户状态的归属权?
  • 哪个系统拥有定价权?
  • 哪个系统拥有库存权?

这些决策属于治理范畴,而非算法范畴。

要解决这个问题,你必须定义一个来源层级。并非所有系统都是平等的。你必须对它们进行标记:

  • 主来源
  • 次要来源
  • 备用来源

这消除了猜测。在模型看到数据之前,基础设施就已经决定了真相。

企业级 AI 的成功更多取决于治理,而非模型选择。如果你不定义归属权,你将面临:

  • 不一致的回答
  • 冲突的结果
  • 不可靠的自动化
  • 低用户信任度

如果用户看到 AI 的说法前后矛盾,他们就会停止使用它。

不要再把 AI 当作一个检索问题。要开始把它当作一个数据归属权问题。

最难的问题不是模型应该回答什么,而是什么是真正的真相。

Source: https://dev.to/karan2598/the-source-of-truth-problem-every-enterprise-ai-team-faces-2m2k

Optional learning community: https://t.me/GyaanSetuAi