如何在不超出预算的情况下使用 LLM
构建一个 AI 演示非常容易。你只需获取一个 API 密钥,编写一个提示词,它就能运行。
但将其交付给真实用户则是另一回事。流量涌入,成本飙升。延迟增加。财务团队开始提出疑问。
演示 demo 与真实产品之间的差距在于工程化。你必须管理成本和速度。
控制输出以节省资金
大多数 API 按 token 计费。它们会对你发送的内容和它们返回的内容进行收费。输出 token 的成本高于输入 token。
不要仅仅精简你的提示词。要专注于答案。 • 要求返回 JSON。 • 要求只用一句话。 • 设置最大 token 限制。 • 告诉模型要简洁。
短答案更便宜,也更快。
减少调用次数
最便宜的调用就是你从未进行的调用。
- 使用缓存。许多用户会问相同的问题。缓存可以将缓慢的 API 调用转变为快速的查找。
- 使用路由。你不需要为每个任务都使用庞大的模型。对于简单的任务,使用小型、廉价的模型;仅在处理困难任务时才使用昂贵的模型。
提升用户体验
有时你无法让模型运行得更快,但你可以让它“感觉”更快。
- 流式传输响应。在生成时即时显示文本。用户可以立即开始阅读,这会让等待感变短。
- 显示进度。如果任务分为多个步骤,请告知用户。使用“正在搜索文档...”之类的消息,而不是一个空白的加载图标。
管理慢请求
几个极慢的请求可能会毁掉你的产品。不要让它们一直挂起。
- 设置严格的超时时间。决定如果请求耗时过长该如何处理。
- 使用带限制的重试机制。不要无限次重试。
- 使用熔断器。如果服务商宕机,停止发送请求并显示备选方案。
追踪你的数据
你无法修复无法衡量的问题。为每个请求记录以下三项内容: • 输入 token • 输出 token • 总延迟
按功能追踪这些数据。你可能会发现某个特定功能消耗了大部分成本。
不要再把模型当成魔法。要把它看作一个必须管理的、缓慢且昂贵的依赖项。
