如何在达成 p99 SLA 的同时，将我们的 AI API 费用减半

Translated for your language. 阅读原文.

AI-assisted draft.

昨天2分钟阅读

我如何在达到 p99 SLA 的同时，将 AI API 账单削减了一半

我们的 AI 账单增长得太快了。我的 CFO 称之为不可持续的烧钱率。当时，我们所有任务都使用 GPT-4o。它确实有效，但成本太高，且 p99 延迟极不稳定。

我决定将 AI 模型选择视为一个系统设计问题。我不再盲目寻找“最好的”模型，而是开始寻找最符合我们特定 SLA 要求的模型。

我首先设定了明确的目标： • 聊天任务的 p99 延迟低于 1.5 秒 • 99.9% 的可用性 • 多区域故障转移 • 3 倍于峰值负载的吞吐能力

一旦有了这些指标，解决方案就变得清晰了。单位 token 最便宜的模型并不总是生产环境的最佳选择。如果一个廉价模型让你的延迟翻倍，你就会流失用户。

我对比了许多模型。价格差异巨大。GPT-4o 每百万输出 token 的成本为 10.00 美元，而 GLM-4 Plus 仅为 0.80 美元。我们的测试表明，在摘要和提取等特定任务中，GLM-4 Plus 的表现几乎与 GPT-4o 一样出色。

我构建了一个路由层来管理这一切。系统遵循以下规则： • 根据工作负载类型路由请求 • 如果延迟激增，则使用备用模型 (fallback model) • 将流量分散到不同区域 • 缓存频繁请求

我还添加了 Redis 缓存。一周内，缓存命中率达到了 40%。这减少了我们在重复查询上的 token 开销，并将延迟从 1.4 秒降低到了 200 毫秒。

结果： • 每月推理支出下降了 58% • p99 延迟从 1.6s 降至 1.18s • 运行时间保持在 99.95% • 缓存命中率达到 42%

我学到的三点教训：

构建自己的评估套件。不要迷信通用的基准测试 (benchmarks)。要使用真实的生产数据。
密切关注速率限制 (rate limits)。区域流量可能会导致意想不到的激增。
构建一个熔断机制 (kill switch)。一个糟糕的提示词 (prompt) 可能会导致 token 使用量剧增。设置最大 token 限制曾为我们节省了 14,000 美元。

如果你的 AI 账单太高，请先定义你的 SLA。利用真实流量构建评估套件。然后，去看看那些你目前尚未关注的模型定价。

继续阅读