模型对决:本地 vs. 云端编程

五个本地模型。一个云端模型。一个真实的编程任务。

结果显而易见。在消费级硬件上,本地模型尚未准备好应对智能体(agentic)编程任务。

我将五个本地模型与 Claude Sonnet 4 进行了对比测试。目标是为博客管理面板构建一个标签管理器。这些模型必须编写代码、通过构建、截取屏幕并推送提交(commits)。

结果:

• Sonnet 4 (云端):完成。4 次提交。10 分钟。无需人工干预。 • Qwen3-Coder 30B (本地):部分完成。1 次提交。可以运行但代码很乱。 • Qwen 3.6 35B (本地):失败。通过了构建但从未提交。 • Gemma 4 12B (本地):失败。陷入了死循环。 • Hermes 4 14B (本地):失败。重复了同一个错误 13 次。 • Devstral 24B (本地):彻底失败。无法使用工具。

效率差距

差距巨大。Sonnet 4 仅使用 1.9 万个 token 就完成了任务。而本地模型消耗了 100 万到 400 万个 token。效率差距达到了 100 到 200 倍。

本地模型不仅速度较慢,而且在推理方面也表现挣扎。我发现了四个主要问题:

总结

本地模型可以写出看起来不错的代码,但在“最后一公里”失败了。成为一个智能体(agent)不仅仅需要代码生成,还需要管理状态、修复错误以及知道何时交付。

Qwen3-Coder 30B 是唯一值得关注的本地模型。它确实向分支推送了可运行的代码。对于一个运行在单个消费级 GPU 上的模型来说,这是一种进步。

来源:https://dev.to/carryologist/model-showdown-round-7-five-local-models-vs-one-cloud-model-on-a-real-coding-task-1ehj

可选学习社区:https://t.me/GyaanSetuAi