10倍的价格暴跌是一场架构层面的抉择
工程师们花费数小时重写提示词(prompts)以节省几个 token。这种努力往往是徒劳的。
Token 并非免费,但 AI 的成本下降得太快了。达到特定 AI 性能水平的成本每年大约下降 10 倍。这被称为 LLMflation。
数据表明,这一趋势是真实存在的:
- 2021 年,GPT-3 级别的质量每百万 token 的成本为 60 美元。
- 现在使用 Llama 3.2 3B 的成本约为 0.06 美元。
- 这意味着在三年内下降了 1,000 倍。
- GPT-3.5 级别的质量成本在短短 18 个月内下降了 280 倍。
前沿模型(frontier models)依然昂贵。但你用于执行标准任务的模型,其价格底线正在不断下探。如果你针对今天的价格进行优化,你优化的其实是一个在几个月内就会消失的数字。
不要专注于提示词技巧。要专注于架构。
遵循以下三条规则才能取胜:
• 将模型视为一个组件。使用统一的输入输出接口。不要在应用中硬编码特定的模型。这样你就可以通过简单的配置更改来更换模型。
• 首先构建评估框架(evaluation harness)。你需要一个测试集来证明新的、更便宜的模型是否与旧模型一样好用。如果没有测试,你会因为担心破坏现有功能而一直受困于昂贵的模型。
• 投资那些不会降价的东西。你的数据质量、检索系统、护栏(guardrails)以及用户体验,其成本并不会每年下降 10 倍。只有模型会。
停止为了提升原始能力而进行微调(fine-tuning)。微调是在对抗趋势。你会将数据和基础设施锁定在某个特定的模型上。当新的基座模型出现时,你微调过的模型就会变成昂贵的遗迹。只针对那些保持不变的东西进行微调,例如你特定的品牌语调或独特的数据格式。
获胜的策略是构建一个让更换模型变得轻而易举的系统。停止计算 token。设计你的产品,使其能够顺应价格曲线的下降趋势。
Optional learning community: https://t.me/GyaanSetuAi
