我如何在达到 p99 SLA 的同时,将 AI API 账单削减了一半

我们的 AI 账单增长得太快了。我的 CFO 称之为不可持续的烧钱率。当时,我们所有任务都使用 GPT-4o。它确实有效,但成本太高,且 p99 延迟极不稳定。

我决定将 AI 模型选择视为一个系统设计问题。我不再盲目寻找“最好的”模型,而是开始寻找最符合我们特定 SLA 要求的模型。

我首先设定了明确的目标: • 聊天任务的 p99 延迟低于 1.5 秒 • 99.9% 的可用性 • 多区域故障转移 • 3 倍于峰值负载的吞吐能力

一旦有了这些指标,解决方案就变得清晰了。单位 token 最便宜的模型并不总是生产环境的最佳选择。如果一个廉价模型让你的延迟翻倍,你就会流失用户。

我对比了许多模型。价格差异巨大。GPT-4o 每百万输出 token 的成本为 10.00 美元,而 GLM-4 Plus 仅为 0.80 美元。我们的测试表明,在摘要和提取等特定任务中,GLM-4 Plus 的表现几乎与 GPT-4o 一样出色。

我构建了一个路由层来管理这一切。系统遵循以下规则: • 根据工作负载类型路由请求 • 如果延迟激增,则使用备用模型 (fallback model) • 将流量分散到不同区域 • 缓存频繁请求

我还添加了 Redis 缓存。一周内,缓存命中率达到了 40%。这减少了我们在重复查询上的 token 开销,并将延迟从 1.4 秒降低到了 200 毫秒。

结果: • 每月推理支出下降了 58% • p99 延迟从 1.6s 降至 1.18s • 运行时间保持在 99.95% • 缓存命中率达到 42%

我学到的三点教训:

  1. 构建自己的评估套件。不要迷信通用的基准测试 (benchmarks)。要使用真实的生产数据。
  2. 密切关注速率限制 (rate limits)。区域流量可能会导致意想不到的激增。
  3. 构建一个熔断机制 (kill switch)。一个糟糕的提示词 (prompt) 可能会导致 token 使用量剧增。设置最大 token 限制曾为我们节省了 14,000 美元。

如果你的 AI 账单太高,请先定义你的 SLA。利用真实流量构建评估套件。然后,去看看那些你目前尚未关注的模型定价。

来源:https://dev.to/bolddeck/how-i-cut-our-ai-api-bill-in-half-while-hitting-p99-slas-1l05

可选学习社区:https://t.me/GyaanSetuAi