你的 AI 提供商是一个单点故障

上周五,美国商务部向 Anthropic 发出了一封信。到那天傍晚,Fable 5 和 Mythos 5 就消失了。

它们没有被弃用,没有被限流,而是直接消失了。

API 调用返回 404 错误。实时会话在对话中途失败。依赖这些模型的应用程序停止了工作。这一切发生在发布后的第三天。没有预警,也没有迁移窗口。

我们很幸运,因为那些模型是全新的。还没有人对它们建立起深度依赖。想象一下,如果你使用了一个模型六个月,然后发生了这种情况。

如果一封政府公函就能关停你的主数据库,你还会不在没有故障转移的情况下运行它吗?你肯定不会。然而,大多数团队在对待 AI 时却是这样做的。

许多团队把 AI 当作电力。你按下开关,就期待灯亮。你不会去思考能源来源,也不会思考停电时会发生什么。你挑选一个模型,硬编码一个端点,然后发布。

这不是工程学。这是靠“希望”驱动的架构。

模型可能因以下原因消失:

Anthropic 的情况并非 Bug 或基础设施故障。它是一个监管层面的“一键关停”开关。

你必须在模型层构建韧性。请使用以下模式:

监控你的错误率。如果错误率激增,请立即“跳闸”,并将流量路由到你的备选方案。

把你的 AI 当作任何其他关键的生产级依赖项来对待。为失败而设计。

你的架构是否假设了提供商会失效?如果不是,你正处于风险之中。

你是否在技术栈中构建了多提供商回退机制?在评论区告诉我。

Source: https://dev.to/aws/your-ai-provider-is-a-single-point-of-failure-26i2

Optional learning community: https://t.me/GyaanSetuAi