如何在不超出预算的情况下使用 LLM

构建一个 AI 演示非常容易。你只需获取一个 API 密钥,编写一个提示词,它就能运行。

但将其交付给真实用户则是另一回事。流量涌入,成本飙升。延迟增加。财务团队开始提出疑问。

演示 demo 与真实产品之间的差距在于工程化。你必须管理成本和速度。

控制输出以节省资金

大多数 API 按 token 计费。它们会对你发送的内容和它们返回的内容进行收费。输出 token 的成本高于输入 token。

不要仅仅精简你的提示词。要专注于答案。 • 要求返回 JSON。 • 要求只用一句话。 • 设置最大 token 限制。 • 告诉模型要简洁。

短答案更便宜,也更快。

减少调用次数

最便宜的调用就是你从未进行的调用。

  • 使用缓存。许多用户会问相同的问题。缓存可以将缓慢的 API 调用转变为快速的查找。
  • 使用路由。你不需要为每个任务都使用庞大的模型。对于简单的任务,使用小型、廉价的模型;仅在处理困难任务时才使用昂贵的模型。

提升用户体验

有时你无法让模型运行得更快,但你可以让它“感觉”更快。

  • 流式传输响应。在生成时即时显示文本。用户可以立即开始阅读,这会让等待感变短。
  • 显示进度。如果任务分为多个步骤,请告知用户。使用“正在搜索文档...”之类的消息,而不是一个空白的加载图标。

管理慢请求

几个极慢的请求可能会毁掉你的产品。不要让它们一直挂起。

  • 设置严格的超时时间。决定如果请求耗时过长该如何处理。
  • 使用带限制的重试机制。不要无限次重试。
  • 使用熔断器。如果服务商宕机,停止发送请求并显示备选方案。

追踪你的数据

你无法修复无法衡量的问题。为每个请求记录以下三项内容: • 输入 token • 输出 token • 总延迟

按功能追踪这些数据。你可能会发现某个特定功能消耗了大部分成本。

不要再把模型当成魔法。要把它看作一个必须管理的、缓慢且昂贵的依赖项。

Source: https://dev.to/muhammadzainnaseer/how-to-put-an-llm-in-your-product-without-wrecking-your-costs-or-your-latency-89a