生产级 AI 的隐藏成本

Translated for your language. 阅读原文.

AI-assisted draft.

19小时前2分钟阅读

生产级 AI 的隐藏成本

生产环境中最糟糕的 Bug 不会让你的系统崩溃，它们只会悄无声息地失败。

LLM 提供商可能会出现局部故障。他们返回 200 OK 状态，但响应内容为空或毫无意义。没有错误，没有告警。看起来像是成功，但实际上是失败。

这才是 AI 的真实成本。它不在于 API 账单，而在于那种看起来一切正常、直到用户告诉你出问题了才暴露出来的失败。

我运行着一个每天对 10,000 条职位列表进行评分的流水线。我使用了 OpenAI、Anthropic、Gemini、DeepSeek 和 Groq。以下是如何构建有效的回退链（fallback chains）。

大多数团队只使用一个提供商。在开发阶段运行良好，但当生产流量袭来时，你会面临速率限制（rate limits）、响应质量下降或模型弃用等问题。

你需要一个三层架构：

每一层必须使用不同的提供商。如果一个提供商宕机，其他的仍能正常运行。

关键提示：不要只检查 HTTP 状态码。你必须验证输出内容。对结构化数据使用 Schema 验证，对文本使用长度检查。

我为任务设置了三个等级：

这种路由机制通过仅在必要时使用昂贵模型来降低成本。

不要忘记你的 Embedding 提供商。如果你的 Embedding API 失败，你的 RAG 流水线就会停止工作。我为每个流水线都并行维护了两个 Embedding 提供商。

为了捕捉这种“静默失败”，请追踪以下三个指标：

一个良好的回退链能确保每个请求都能获得可用的响应。你为此支付了额外的容量成本，但你保护了用户的信任。

继续阅读