10倍的价格暴跌是一场架构层面的抉择

工程师们花费数小时重写提示词(prompts)以节省几个 token。这种努力往往是徒劳的。

Token 并非免费,但 AI 的成本下降得太快了。达到特定 AI 性能水平的成本每年大约下降 10 倍。这被称为 LLMflation。

数据表明,这一趋势是真实存在的:

  • 2021 年,GPT-3 级别的质量每百万 token 的成本为 60 美元。
  • 现在使用 Llama 3.2 3B 的成本约为 0.06 美元。
  • 这意味着在三年内下降了 1,000 倍。
  • GPT-3.5 级别的质量成本在短短 18 个月内下降了 280 倍。

前沿模型(frontier models)依然昂贵。但你用于执行标准任务的模型,其价格底线正在不断下探。如果你针对今天的价格进行优化,你优化的其实是一个在几个月内就会消失的数字。

不要专注于提示词技巧。要专注于架构。

遵循以下三条规则才能取胜:

• 将模型视为一个组件。使用统一的输入输出接口。不要在应用中硬编码特定的模型。这样你就可以通过简单的配置更改来更换模型。

• 首先构建评估框架(evaluation harness)。你需要一个测试集来证明新的、更便宜的模型是否与旧模型一样好用。如果没有测试,你会因为担心破坏现有功能而一直受困于昂贵的模型。

• 投资那些不会降价的东西。你的数据质量、检索系统、护栏(guardrails)以及用户体验,其成本并不会每年下降 10 倍。只有模型会。

停止为了提升原始能力而进行微调(fine-tuning)。微调是在对抗趋势。你会将数据和基础设施锁定在某个特定的模型上。当新的基座模型出现时,你微调过的模型就会变成昂贵的遗迹。只针对那些保持不变的东西进行微调,例如你特定的品牌语调或独特的数据格式。

获胜的策略是构建一个让更换模型变得轻而易举的系统。停止计算 token。设计你的产品,使其能够顺应价格曲线的下降趋势。

Source: https://dev.to/aiexplore369zoho/the-10x-a-year-price-collapse-is-an-architecture-bet-not-a-prompt-trick-49df

Optional learning community: https://t.me/GyaanSetuAi