在 2008 年的 Xeon 上运行 32B LLM：内存比显存更重要

Machine-translated. Read the original.

📅3 hours ago⏱1 min read

在 2008 年 Xeon 上运行 32B LLM：内存比显存更重要

我尝试在我的工作笔记本电脑上运行一个 20 GB 的模型。这台笔记本配备了 RTX 4070 和 16 GB 内存。结果失败了。系统完全卡死。

我决定改用一台 2008 年的老服务器进行测试。这台服务器配备了两颗 Intel Xeon E5440 CPU 和 64 GB 内存。它没有 GPU。

目标很简单。拥有足够内存的老旧硬件，能否运行我的笔记本电脑无法运行的大型模型？

硬件对比情况如下：

笔记本电脑：

服务器：

服务器运行很慢。它的生成速度大约为每秒 0.01 个 token。我是在午夜开始测试的，第二天早上才去查看。

模型尝试用 Forth 语言编写代码。经过几个小时，它生成了两个不同的版本。这两个版本都无法运行。

我从中学到了两件事：

内存容量至关重要。 64 GB 的系统内存让你能够运行那些 24 GB（显存与内存总和）无法运行的模型。然而，每秒 0.01 个 token 的速度在实际工作中并不实用。
大型模型并非万能。如果模型没有经过 Forth 这种小众语言的训练，它就无法编写该语言的代码。要获得可运行的代码，你需要更好的流程。你需要算法、确定性转译器（deterministic transpilers）以及更好的工具。

不要为了测试一个想法就购买昂贵的硬件。先利用你现有的设备进行实验。推理速度慢也依然是推理。它在没有产生巨额账单的情况下，给了我所需的答案。

Optional learning community: https://t.me/GyaanSetuAi

Continue reading