𝟮𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠 2008年製Xeonで32B LLMを動かす:VRAMよりもRAMが重要

仕事用のノートPCで20GBのモデルを動かそうとしてみました。 そのノートPCにはRTX 4070と16GBのRAMが搭載されています。 しかし失敗しました。システムが完全にフリーズしてしまったのです。

代わりに、2008年製の古いサーバーでテストすることにしました。 そのサーバーには2基のIntel Xeon E5440 CPUと64GBのRAMが搭載されています。 GPUはありません。

目的は単純です。 十分なメモリを備えた古いハードウェアなら、ノートPCでは動かせないような大規模モデルを動かせるのか?

ハードウェアの比較は以下の通りです:

ノートPC:

サーバー:

サーバーの動作は遅いです。 生成速度は毎秒約0.01トークンです。 深夜にテストを開始し、翌朝に確認しました。

モデルはForth言語でコードを書こうとしました。 数時間後、2つの異なるバージョンが生成されました。 しかし、どちらのバージョンも実行には失敗しました。

このことから、2つのことが分かりました:

  1. RAMの容量が重要である。 64GBのシステムRAMがあれば、VRAMとRAMを合わせて24GBしかない環境では動かせないモデルを動かすことができます。 ただし、毎秒0.01トークンという速度は、実務レベルでは実用的ではありません。

  2. 大規模モデルは魔法ではない。 大規模モデルであっても、学習していなければForthのようなニッチな言語でプログラミングすることはできません。 動作するコードを得るには、より優れたプロセスが必要です。 アルゴリズム、決定論的なトランスパイラ、そしてより良いツールが必要なのです。

アイデアを検証するために、高価なハードウェアを買わないでください。 まずは手元にあるもので実験を行ってみましょう。 推論速度が遅くても、それは立派な推論です。 多額の費用をかけることなく、必要な答えを得ることができました。

Source: https://dev.to/ua3mqj/32b-llm-on-a-2008-xeon-when-ram-matters-more-than-vram-28e2

Optional learning community: https://t.me/GyaanSetuAi