我将我的 AI API 成本降低了 70%

我的 OpenAI 账单从 30 美元飙升到了 150 美元。 一个小小的 Slack 机器人导致了这一切。 重复的提示词(prompts)和重试消耗了太多成本。

我尝试过简单的修复方法。 我使用了基础缓存。 我更换了模型。 但都没有效果。 用户会重新组织问题的措辞。 当措辞发生变化时,基础缓存就会失效。

我构建了一个 AI 代理(proxy)。 它位于我的应用程序和 API 之间。 它主要做三件事:

  • 语义缓存(Semantic caching)。我使用嵌入(embeddings)来寻找相似的问题。如果匹配度很高,我就直接返回缓存的答案。
  • 速率限制(Rate limiting)。我使用 Redis 来防止请求突发。
  • 重试缓冲(Retry buffers)。代理会自动重试失败的调用。

这让我的成本降低了 70%。

这也存在权衡:

  • 延迟。每个请求会增加 200 毫秒。
  • 内存。Redis 需要空间来存储向量(vectors)。
  • 准确性。一些相似的提示词可能需要不同的答案。

给你的建议:

  • 从 LiteLLM 等开源工具开始。
  • 从第一天起就开始追踪你的数据。
  • 在高流量情况下使用消息队列。

不要再把 AI API 当作黑盒了。 它们本质上就是 HTTP 端点。 使用中间件来控制它们。

你的配置是怎样的? 你是使用现成服务还是自己构建?

Source: https://dev.to/__c1b9e06dc90a7e0a676b/i-built-a-simple-ai-proxy-to-cut-api-costs-heres-what-i-learned-3hcf