𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠

Machine-translated. Read the original.

📅3 hours ago⏱1 min read

𝟮𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠 2008年製Xeonで32B LLMを動かす：VRAMよりもRAMが重要

仕事用のノートPCで20GBのモデルを動かそうとしてみました。そのノートPCにはRTX 4070と16GBのRAMが搭載されています。しかし失敗しました。システムが完全にフリーズしてしまったのです。

代わりに、2008年製の古いサーバーでテストすることにしました。そのサーバーには2基のIntel Xeon E5440 CPUと64GBのRAMが搭載されています。 GPUはありません。

目的は単純です。十分なメモリを備えた古いハードウェアなら、ノートPCでは動かせないような大規模モデルを動かせるのか？

ハードウェアの比較は以下の通りです：

ノートPC:

サーバー:

サーバーの動作は遅いです。生成速度は毎秒約0.01トークンです。深夜にテストを開始し、翌朝に確認しました。

モデルはForth言語でコードを書こうとしました。数時間後、2つの異なるバージョンが生成されました。しかし、どちらのバージョンも実行には失敗しました。

このことから、2つのことが分かりました：

RAMの容量が重要である。 64GBのシステムRAMがあれば、VRAMとRAMを合わせて24GBしかない環境では動かせないモデルを動かすことができます。ただし、毎秒0.01トークンという速度は、実務レベルでは実用的ではありません。
大規模モデルは魔法ではない。大規模モデルであっても、学習していなければForthのようなニッチな言語でプログラミングすることはできません。動作するコードを得るには、より優れたプロセスが必要です。アルゴリズム、決定論的なトランスパイラ、そしてより良いツールが必要なのです。

アイデアを検証するために、高価なハードウェアを買わないでください。まずは手元にあるもので実験を行ってみましょう。推論速度が遅くても、それは立派な推論です。多額の費用をかけることなく、必要な答えを得ることができました。

Optional learning community: https://t.me/GyaanSetuAi

Continue reading