LLM 系统成本优化

LLM 成本随使用量增加而增长。如果每天处理 10,000 次请求,每次请求 0.01 美元,那么每天的成本就是 100 美元。一年下来超过 36,000 美元。在企业级规模下,这些数字增长得更快。

优化并不是要偷工减料,而是在关键的地方投入 Token。

使用以下五种策略来控制您的支出:

  1. 设置 Token 预算 不要让单个会话失控。为每个会话、每个任务或每天设置限制。 • 按会话设置预算可以防止成本失控。 • 按任务设置预算可以将模型与任务匹配。使用小模型进行分类,使用大模型进行推理。 • 自适应预算根据历史记录进行调整。如果某个任务使用的 Token 少于预期,则降低您的分配额度。

  2. 本地推理 在大规模使用时,在自有硬件上运行模型更便宜。 • 对于像 Qwen2.5-7B 这样的小模型,每天仅使用一小时,本地推理就能实现盈亏平衡。 • 像 RTX 4090 这样的硬件大约在六个月内就能回本。 • 请记住,硬件需要前期资金投入。而 API 允许您立即停止支出。

  3. 基于质量的回退机制 您并不总是需要最昂贵的模型。 • 创建一个路由系统。先尝试廉价模型。 • 如果输出质量低于您的阈值,则将请求路由到更大的模型。 • 这确保了只有在任务需要时,您才为高智能支付费用。

  4. 基于延迟的回退机制 有时速度比成本更重要。 • 将提示词路由到符合您时间预算的最快模型。 • 这可以在不为不必要的性能过度付费的情况下,保持流畅的用户体验。

  5. 缓存 缓存是节省资金中最被低估的工具。 • 精确缓存(Exact caching)可以节省重复相同提示词的费用。 • 语义缓存(Semantic caching)可以节省那些意思相同但措辞不同的提示词的费用。 • 响应缓存(Response caching)可以高效处理常见查询(如 FAQ)。

策略总结: • 无优化:成本最高,复杂度最低。 • Token 预算:成本适中,复杂度中等。 • 回退模型:成本较低,复杂度中等。 • 缓存:成本最低,复杂度中等。 • 混合方案:成本与质量均得到优化,复杂度最高。

从简单开始。先让您的基础流程运行起来。只有当账单成为问题时,再添加这些优化措施。

来源:https://dev.to/rosgluk/cost-optimization-for-llm-systems-where-the-money-actually-goes-17e

可选的学习社区:https://t.me/GyaanSetuAi