我如何通过这种 RAG 设置将 AI 成本降低 60%
三个月前,我差点解雇了一个客户。
这并不是因为他们很难搞,而是因为他们的 LLM 账单正在吞噬我的利润。我收了 4,800 美元来构建他们的 RAG 系统。到了第二个月,我仅为了维持运行就支付了 3,100 美元的 API 费用。这算不上生意,这简直是在做慈善。
我重构了整个流水线。我切换到了 DeepSeek 并更改了我的向量数据库设置。现在,同样的负载每月仅需 410 美元。准确性和质量保持不变。我将成本降低了大约 87%。
以下是我的实操手册。
大多数 AI 机器人的问题不在于工程实现,而在于当客户每周运行 40,000 次查询时,如何保持盈利。我以前使用像 GPT-4o 这样“稳妥”的模型。但这些模型可付不起房贷。
我开始追踪每一次请求。我查看了 token 数量和缓存命中率。我发现大部分支出都花在了琐碎的问题上。人们一直在问“我们的退款政策是什么”。这些问题每次都会触及相同的数据。
我以前的设置对所有事情都使用 GPT-4o。每个简单问题的成本是 0.014 美元。一个月 40,000 个问题,光是处理这些简单内容就要花掉 560 美元。
我的新设置采用了智能路由策略:
• 80% 的流量分配给 DeepSeek V4 Flash。 • 20% 的复杂任务分配给 DeepSeek V4 Pro。 • 琐碎任务分配给 GLM-4 Plus。
成本差异是巨大的。DeepSeek V4 Flash 每百万输入 token 的成本为 0.27 美元,而 GPT-4o 为 2.50 美元。
以下是我保持低成本的方法:
- 激进地使用缓存。我会缓存任何被问过两次的问题。40% 的缓存命中率可以节省数千美元。
- 按难度路由。不要为了一个句子的回答而使用昂贵模型。
- 使用备用路径。如果一个供应商宕机,准备好第二个模型。
- 监控质量。我每周进行抽检,以确保准确性保持在高水平。
我使用 ChromaDB 作为我的缓存。对于大多数问题都会重复的客服机器人来说,这使得许多查询几乎是免费的。
你不会靠构建费发财。一旦客户依赖你的系统,你才会靠每月的维护费发财。
来源:https://dev.to/bolddeck/i-cut-my-ai-costs-60-with-this-rag-setup-full-breakdown-2a0