𝗥𝗔𝗠 𝗜𝘀 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗚𝗣𝗨

Machine-translated. Read the original.

📅3 hours ago⏱2 min read

𝗥𝗔𝗠 𝗜𝘀 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗚𝗣𝗨

長年、AI開発者は一つのこと、つまり計算速度に注力してきました。CUDAコアやクロック速度に注目してきたはずです。

その時代は終わりました。

新たなボトルネックはメモリ容量です。

700億パラメータのモデルを円滑に動作させるには、およそ48〜50GBのメモリが必要です。しかし、Nvidia RTX 5090のメモリはわずか32GBしかありません。

計算は単純です。モデルの重みがVRAMに収まらなければ、1秒あたりのトークン生成数はゼロになります。モデルがロードできなければ、速度など意味をなしません。

ハードウェアを比較してみましょう：

• RTX 5090: 32 GB VRAM（1GBあたり62.47ドル） • Mac Studio M3 Ultra: 512 GB メモリ（1GBあたり18.55ドル）

Mac Studioは16倍の容量を提供し、1GBあたりのコストは3.4分の1です。

この違いはアーキテクチャに起因します。Nvidiaは独立した（discrete）VRAMを使用します。データはブリッジを介してCPUとGPUの間を移動しなければなりません。モデルが巨大化すると、これがすべての動作を遅らせる原因となります。

Appleはユニファイドメモリ（unified memory）を採用しています。CPUとGPUが同じ物理的なスペースを共有しているため、データをあちこちへ移動させる必要がありません。データは最初からそこにあるのです。

これにより、ワークフローが変わります：

70Bモデルを動かしたい場合、RTX 5090では不可能です。Mac Studioなら動作します。

DeepSeek V3を動かしたい場合、RTX 5090は力尽きます。Mac Studioなら余裕を持ってロードできます。

選択肢は明確です：

モデルが32GB未満の場合：Nvidiaを使用してください。小規模なモデルではこちらの方が高速です。
モデルが32GBを超える場合：Mac Studioを使用してください。Nvidiaでこれらのモデルを動かすには、莫大なコストがかかるか、品質を低下させる必要があります。

大規模モデル向けにハイエンドなNvidia環境を構築しようとすると、しばしば高額な週末プロジェクトになりがちです。なんとか動作させようとするだけで、複数のGPUやカスタム冷却システムを買い揃える羽目になります。

Mac Studioはデスクに置くだけです。消費電力も少なく、すぐに使い始められます。

「どのGPUが最も速いか」と問うのはやめましょう。「どのプラットフォームが、自分が必要なモデルを実際に動かせるか」を問い始めてください。

あなたのセットアップはどうなっていますか？Nvidiaを使っていますか？それともユニファイドメモリに移行しましたか？

Optional learning community: https://t.me/GyaanSetuAi

Continue reading