从零开始削减 OpenAI 成本

三个月前,我的 OpenAI 账单达到了 14,200 美元。

这不是一个小问题,而是对我们利润率的生存威胁。因为图方便,我们将所有请求都路由到了 GPT-4o。我们当时在疯狂消耗 token。

我最终将 LLM 支出削减了 97%。

以下是我的做法,以及你也可以如何实现。

数学计算

我不再对每个任务都使用 GPT-4o。我查看了单位成本:

• GPT-4o:每 1M 输入 $2.50 / 每 1M 输出 $10.00 • GPT-4o-mini:每 1M 输入 $0.15 / 每 1M 输出 $0.60(便宜 16 倍) • DeepSeek V4 Flash:每 1M 输入 $0.18 / 每 1M 输出 $0.25(便宜 40 倍)

通过将高吞吐量、低复杂度的任务转移到更便宜的模型,我 14,200 美元的账单降到了大约 355 美元。

策略

成本优化是一个意志力问题。切换模型会让人感到风险。为了消除这种风险,我遵循了三条架构规则:

  1. 统一使用 OpenAI SDK。大多数供应商都支持 OpenAI 客户端库。使用它可以让你在不重写代码的情况下更换供应商。

  2. 抽象化模型名称。永远不要在逻辑中硬编码 "gpt-4o"。将模型名称保存在配置文件或环境变量中。

  3. 构建一个路由(Router)。将不同的任务发送给不同的模型。使用高级模型进行复杂推理,使用廉价模型进行分类或提取。

迁移流程

不要一次性迁移所有内容。那是一个错误。我尝试过那样做,结果发现错误率飙升。

相反,请遵循以下路径:

审计支出。查明究竟哪些功能最烧钱。 • 创建功能对等矩阵(Parity Matrix)。列出你使用的每一个功能,例如 function calling 或 streaming。检查你的新供应商是否支持它们。 • 使用真实流量进行压力测试。将一小部分生产环境流量发送到新供应商。对比质量和延迟。 • 构建路由。实现一个能够选择完成该任务所需最便宜模型的系统。

结果

我们每次请求的平均成本从 $0.012 降至 $0.0008。

更低的成本改变了我们的产品路线图。我们不再因为运行成本太高而放弃新功能。降低推理成本将释放你的增长能力。

Source: https://dev.to/eagerspark/cutting-openai-costs-from-scratch-what-nobody-tells-you-43a8

Optional learning community: https://t.me/GyaanSetuAi