你日常工作真的需要最先进的 AI 吗?
每周都有新的 AI 模型问世。人们争论基准测试(benchmarks)和编程评分。我们都感到兴奋。
但我开始问一个不同的问题:你日常的任务真的需要最先进的模型吗?
我最近对此进行了测试。我针对一项代码重构任务对比了两个模型。
- Sonnet 消耗了 76.1 个积分。
- Haiku 消耗了 13.3 个积分。
Haiku 的价格低了 5.7 倍。我原以为昂贵的模型会胜出,但事实并非如此。
Haiku 产生了更好的结果。它将代码拆分为三个整洁的文件。它比 Sonnet 更好地遵循了我们的编码标准。它更便宜,也更有效。
规模更大、价格更贵并不意味着更好。
模型能力只是整个流程的一部分。我使用 AI 开发框架(harness)来获得更好的结果。这个框架包括:
• 特定于代码库的指令 • 编码标准 • 架构指导 • 开发工作流 • 项目上下文 • 评审预期
当你建立这些护栏(guardrails)时,小模型的表现会更好。模型不需要去猜测什么是好的代码,环境会告诉它。
大多数工程任务并不是研究问题。像重构、编写测试或创建文档之类的任务并不需要庞大的模型。
不要再问哪个模型的基准测试分数最高了。相反,你应该问这些问题:
- 任务完成了吗?
- 结果是否易于维护?
- 是否符合项目标准?
- 成本是否值得?
- 团队能否以低成本进行规模化应用?
使用能解决你问题的最便宜的模型。
AI 行业关注的是智能。你应该关注框架的质量。如果你能提供正确的上下文,一个成本低 5.7 倍的模型也能交付更好的结果。
可选学习社区: https://t.me/GyaanSetuAi