在 2008 年 Xeon 上运行 32B LLM:内存比显存更重要

我尝试在我的工作笔记本电脑上运行一个 20 GB 的模型。 这台笔记本配备了 RTX 4070 和 16 GB 内存。 结果失败了。系统完全卡死。

我决定改用一台 2008 年的老服务器进行测试。 这台服务器配备了两颗 Intel Xeon E5440 CPU 和 64 GB 内存。 它没有 GPU。

目标很简单。 拥有足够内存的老旧硬件,能否运行我的笔记本电脑无法运行的大型模型?

硬件对比情况如下:

笔记本电脑:

服务器:

服务器运行很慢。 它的生成速度大约为每秒 0.01 个 token。 我是在午夜开始测试的,第二天早上才去查看。

模型尝试用 Forth 语言编写代码。 经过几个小时,它生成了两个不同的版本。 这两个版本都无法运行。

我从中学到了两件事:

  1. 内存容量至关重要。 64 GB 的系统内存让你能够运行那些 24 GB(显存与内存总和)无法运行的模型。 然而,每秒 0.01 个 token 的速度在实际工作中并不实用。

  2. 大型模型并非万能。 如果模型没有经过 Forth 这种小众语言的训练,它就无法编写该语言的代码。 要获得可运行的代码,你需要更好的流程。 你需要算法、确定性转译器(deterministic transpilers)以及更好的工具。

不要为了测试一个想法就购买昂贵的硬件。 先利用你现有的设备进行实验。 推理速度慢也依然是推理。 它在没有产生巨额账单的情况下,给了我所需的答案。

Source: https://dev.to/ua3mqj/32b-llm-on-a-2008-xeon-when-ram-matters-more-than-vram-28e2

Optional learning community: https://t.me/GyaanSetuAi