如何在不超出预算的情况下使用 LLM

Translated for your language. 阅读原文.

AI-assisted draft.

如何在不超出预算的情况下使用 LLM

构建一个 AI 演示非常容易。你只需获取一个 API 密钥，编写一个提示词，它就能运行。

但将其交付给真实用户则是另一回事。流量涌入，成本飙升。延迟增加。财务团队开始提出疑问。

演示 demo 与真实产品之间的差距在于工程化。你必须管理成本和速度。

控制输出以节省资金

大多数 API 按 token 计费。它们会对你发送的内容和它们返回的内容进行收费。输出 token 的成本高于输入 token。

不要仅仅精简你的提示词。要专注于答案。 • 要求返回 JSON。 • 要求只用一句话。 • 设置最大 token 限制。 • 告诉模型要简洁。

短答案更便宜，也更快。

减少调用次数

最便宜的调用就是你从未进行的调用。

提升用户体验

有时你无法让模型运行得更快，但你可以让它“感觉”更快。

管理慢请求

几个极慢的请求可能会毁掉你的产品。不要让它们一直挂起。

追踪你的数据

你无法修复无法衡量的问题。为每个请求记录以下三项内容： • 输入 token • 输出 token • 总延迟

按功能追踪这些数据。你可能会发现某个特定功能消耗了大部分成本。

不要再把模型当成魔法。要把它看作一个必须管理的、缓慢且昂贵的依赖项。

继续阅读