𝗖𝗼𝘀𝘁 𝗢𝗽𝘁𝗶𝗺𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗟𝗟𝗠 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

Translated for your language. 阅读原文.

AI-assisted draft.

昨天2分钟阅读

LLM 系统成本优化

LLM 成本随使用量增加而增长。如果每天处理 10,000 次请求，每次请求 0.01 美元，那么每天的成本就是 100 美元。一年下来超过 36,000 美元。在企业级规模下，这些数字增长得更快。

优化并不是要偷工减料，而是在关键的地方投入 Token。

使用以下五种策略来控制您的支出：

设置 Token 预算不要让单个会话失控。为每个会话、每个任务或每天设置限制。 • 按会话设置预算可以防止成本失控。 • 按任务设置预算可以将模型与任务匹配。使用小模型进行分类，使用大模型进行推理。 • 自适应预算根据历史记录进行调整。如果某个任务使用的 Token 少于预期，则降低您的分配额度。
本地推理在大规模使用时，在自有硬件上运行模型更便宜。 • 对于像 Qwen2.5-7B 这样的小模型，每天仅使用一小时，本地推理就能实现盈亏平衡。 • 像 RTX 4090 这样的硬件大约在六个月内就能回本。 • 请记住，硬件需要前期资金投入。而 API 允许您立即停止支出。
基于质量的回退机制您并不总是需要最昂贵的模型。 • 创建一个路由系统。先尝试廉价模型。 • 如果输出质量低于您的阈值，则将请求路由到更大的模型。 • 这确保了只有在任务需要时，您才为高智能支付费用。
基于延迟的回退机制有时速度比成本更重要。 • 将提示词路由到符合您时间预算的最快模型。 • 这可以在不为不必要的性能过度付费的情况下，保持流畅的用户体验。
缓存缓存是节省资金中最被低估的工具。 • 精确缓存（Exact caching）可以节省重复相同提示词的费用。 • 语义缓存（Semantic caching）可以节省那些意思相同但措辞不同的提示词的费用。 • 响应缓存（Response caching）可以高效处理常见查询（如 FAQ）。

策略总结： • 无优化：成本最高，复杂度最低。 • Token 预算：成本适中，复杂度中等。 • 回退模型：成本较低，复杂度中等。 • 缓存：成本最低，复杂度中等。 • 混合方案：成本与质量均得到优化，复杂度最高。

从简单开始。先让您的基础流程运行起来。只有当账单成为问题时，再添加这些优化措施。

来源：https://dev.to/rosgluk/cost-optimization-for-llm-systems-where-the-money-actually-goes-17e

可选的学习社区：https://t.me/GyaanSetuAi

𝗖𝗼𝘀𝘁 𝗢𝗽𝘁𝗶𝗺𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗟𝗟𝗠 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

继续阅读

降低智能体计算成本

MCP 上下文税

AI API 的真实成本

异步批处理降低 50% 的推理成本

如何在达成 p99 SLA 的同时，将我们的 AI API 费用减半