模型对决：本地 vs. 云端编程

📅3 hours ago⏱2 min read

模型对决：本地 vs. 云端编程

五个本地模型。一个云端模型。一个真实的编程任务。

结果显而易见。在消费级硬件上，本地模型尚未准备好应对智能体（agentic）编程任务。

我将五个本地模型与 Claude Sonnet 4 进行了对比测试。目标是为博客管理面板构建一个标签管理器。这些模型必须编写代码、通过构建、截取屏幕并推送提交（commits）。

结果：

• Sonnet 4 (云端)：完成。4 次提交。10 分钟。无需人工干预。 • Qwen3-Coder 30B (本地)：部分完成。1 次提交。可以运行但代码很乱。 • Qwen 3.6 35B (本地)：失败。通过了构建但从未提交。 • Gemma 4 12B (本地)：失败。陷入了死循环。 • Hermes 4 14B (本地)：失败。重复了同一个错误 13 次。 • Devstral 24B (本地)：彻底失败。无法使用工具。

效率差距

差距巨大。Sonnet 4 仅使用 1.9 万个 token 就完成了任务。而本地模型消耗了 100 万到 400 万个 token。效率差距达到了 100 到 200 倍。

本地模型不仅速度较慢，而且在推理方面也表现挣扎。我发现了四个主要问题：

退化循环：模型会重复数十次相同的错误代码或文本。
目录失忆：模型会忘记自己在文件系统中的位置。
优先级排序差：模型专注于次要任务，而不是完成主要目标。
缺乏自我诊断：模型会尝试同样的错误修复方案，而不是阅读文档。

总结

本地模型可以写出看起来不错的代码，但在“最后一公里”失败了。成为一个智能体（agent）不仅仅需要代码生成，还需要管理状态、修复错误以及知道何时交付。

Qwen3-Coder 30B 是唯一值得关注的本地模型。它确实向分支推送了可运行的代码。对于一个运行在单个消费级 GPU 上的模型来说，这是一种进步。

来源：https://dev.to/carryologist/model-showdown-round-7-five-local-models-vs-one-cloud-model-on-a-real-coding-task-1ehj

可选学习社区：https://t.me/GyaanSetuAi

模型对决：本地 vs. 云端编程

Continue reading

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗮𝗿𝗲 𝗶𝗻 𝟮𝟬𝟮𝟲, 𝗯𝘂𝘁 𝘁𝗵𝗲 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝘀 𝗦𝘁𝘂𝗰𝗸 𝗶𝗻 𝟮𝟬𝟭𝟬

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

在单个 GPU 上运行两个模型：本地 LLM 背后的数学原理

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀

𝗩𝗶𝗯𝗲 𝗖𝗼𝗱𝗶𝗻𝗴 𝟭𝟬𝟭: 𝗔 𝗚𝘂𝗶𝗱𝗲 𝗳𝗼𝗿 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿𝘀