你日常工作真的需要最先进的 AI 吗？

Machine-translated. Read the original.

📅2 hours ago⏱1 min read

你日常工作真的需要最先进的 AI 吗？

每周都有新的 AI 模型问世。人们争论基准测试（benchmarks）和编程评分。我们都感到兴奋。

但我开始问一个不同的问题：你日常的任务真的需要最先进的模型吗？

我最近对此进行了测试。我针对一项代码重构任务对比了两个模型。

Haiku 的价格低了 5.7 倍。我原以为昂贵的模型会胜出，但事实并非如此。

Haiku 产生了更好的结果。它将代码拆分为三个整洁的文件。它比 Sonnet 更好地遵循了我们的编码标准。它更便宜，也更有效。

规模更大、价格更贵并不意味着更好。

模型能力只是整个流程的一部分。我使用 AI 开发框架（harness）来获得更好的结果。这个框架包括：

• 特定于代码库的指令 • 编码标准 • 架构指导 • 开发工作流 • 项目上下文 • 评审预期

当你建立这些护栏（guardrails）时，小模型的表现会更好。模型不需要去猜测什么是好的代码，环境会告诉它。

大多数工程任务并不是研究问题。像重构、编写测试或创建文档之类的任务并不需要庞大的模型。

不要再问哪个模型的基准测试分数最高了。相反，你应该问这些问题：

使用能解决你问题的最便宜的模型。

AI 行业关注的是智能。你应该关注框架的质量。如果你能提供正确的上下文，一个成本低 5.7 倍的模型也能交付更好的结果。

Continue reading