我如何通过这种 RAG 设置将 AI 成本降低 60%

Machine-translated. Read the original.

📅3 hours ago⏱2 min read

我如何通过这种 RAG 设置将 AI 成本降低 60%

三个月前，我差点解雇了一个客户。

这并不是因为他们很难搞，而是因为他们的 LLM 账单正在吞噬我的利润。我收了 4,800 美元来构建他们的 RAG 系统。到了第二个月，我仅为了维持运行就支付了 3,100 美元的 API 费用。这算不上生意，这简直是在做慈善。

我重构了整个流水线。我切换到了 DeepSeek 并更改了我的向量数据库设置。现在，同样的负载每月仅需 410 美元。准确性和质量保持不变。我将成本降低了大约 87%。

以下是我的实操手册。

大多数 AI 机器人的问题不在于工程实现，而在于当客户每周运行 40,000 次查询时，如何保持盈利。我以前使用像 GPT-4o 这样“稳妥”的模型。但这些模型可付不起房贷。

我开始追踪每一次请求。我查看了 token 数量和缓存命中率。我发现大部分支出都花在了琐碎的问题上。人们一直在问“我们的退款政策是什么”。这些问题每次都会触及相同的数据。

我以前的设置对所有事情都使用 GPT-4o。每个简单问题的成本是 0.014 美元。一个月 40,000 个问题，光是处理这些简单内容就要花掉 560 美元。

我的新设置采用了智能路由策略：

• 80% 的流量分配给 DeepSeek V4 Flash。 • 20% 的复杂任务分配给 DeepSeek V4 Pro。 • 琐碎任务分配给 GLM-4 Plus。

成本差异是巨大的。DeepSeek V4 Flash 每百万输入 token 的成本为 0.27 美元，而 GPT-4o 为 2.50 美元。

以下是我保持低成本的方法：

我使用 ChromaDB 作为我的缓存。对于大多数问题都会重复的客服机器人来说，这使得许多查询几乎是免费的。

你不会靠构建费发财。一旦客户依赖你的系统，你才会靠每月的维护费发财。

Continue reading