单一事实来源问题
企业级 AI 团队面临着一个难题。
“什么是正确答案?”
这个问题并非来自模型,而是来自业务。
在小规模应用时,这看起来很简单。但在企业规模下,它变成了一个巨大的架构问题。大多数公司并没有单一的事实来源,而是拥有许多个。
公司使用许多系统:
- CRM
- ERP
- 工单系统
- 内部数据库
- 电子表格
- 文档平台
每个系统都存储着数据。每个系统都会随时间而变化。同一个客户可能存在于三个不同的地方,并拥有三种不同的状态。
AI 并不会制造这些问题,它只是暴露了这些问题。
在 AI 出现之前,人类负责处理混乱的数据。员工知道哪些报告是过时的,知道该信任哪些数据库。
AI 缺乏这种直觉。当 AI 从多个来源提取数据时,它会同时看到每一个版本的“真相”。
如果一个系统显示客户处于“活跃”状态,而另一个系统显示为“暂停”,AI 就会陷入僵局。这两个系统都没有故障,问题在于归属权。
一个常见的错误是认为更多的数据能提升 AI 的表现。通常情况下,更多的数据反而会带来更多混乱。更多的集成会导致更多的重复和冲突。
检索系统找到的是相关数据,而不是权威数据。
你必须决定:
- 哪个系统拥有客户状态的归属权?
- 哪个系统拥有定价权?
- 哪个系统拥有库存权?
这些决策属于治理范畴,而非算法范畴。
要解决这个问题,你必须定义一个来源层级。并非所有系统都是平等的。你必须对它们进行标记:
- 主来源
- 次要来源
- 备用来源
这消除了猜测。在模型看到数据之前,基础设施就已经决定了真相。
企业级 AI 的成功更多取决于治理,而非模型选择。如果你不定义归属权,你将面临:
- 不一致的回答
- 冲突的结果
- 不可靠的自动化
- 低用户信任度
如果用户看到 AI 的说法前后矛盾,他们就会停止使用它。
不要再把 AI 当作一个检索问题。要开始把它当作一个数据归属权问题。
最难的问题不是模型应该回答什么,而是什么是真正的真相。
Source: https://dev.to/karan2598/the-source-of-truth-problem-every-enterprise-ai-team-faces-2m2k
Optional learning community: https://t.me/GyaanSetuAi