你日常工作真的需要最先进的 AI 吗?

每周都有新的 AI 模型问世。人们争论基准测试(benchmarks)和编程评分。我们都感到兴奋。

但我开始问一个不同的问题:你日常的任务真的需要最先进的模型吗?

我最近对此进行了测试。我针对一项代码重构任务对比了两个模型。

Haiku 的价格低了 5.7 倍。我原以为昂贵的模型会胜出,但事实并非如此。

Haiku 产生了更好的结果。它将代码拆分为三个整洁的文件。它比 Sonnet 更好地遵循了我们的编码标准。它更便宜,也更有效。

规模更大、价格更贵并不意味着更好。

模型能力只是整个流程的一部分。我使用 AI 开发框架(harness)来获得更好的结果。这个框架包括:

• 特定于代码库的指令 • 编码标准 • 架构指导 • 开发工作流 • 项目上下文 • 评审预期

当你建立这些护栏(guardrails)时,小模型的表现会更好。模型不需要去猜测什么是好的代码,环境会告诉它。

大多数工程任务并不是研究问题。像重构、编写测试或创建文档之类的任务并不需要庞大的模型。

不要再问哪个模型的基准测试分数最高了。相反,你应该问这些问题:

使用能解决你问题的最便宜的模型。

AI 行业关注的是智能。你应该关注框架的质量。如果你能提供正确的上下文,一个成本低 5.7 倍的模型也能交付更好的结果。

来源: https://dev.to/drottnings/do-we-really-need-the-most-advanced-ai-models-for-everyday-development-3n2b

可选学习社区: https://t.me/GyaanSetuAi