GLM 5.2 をデスクトップでローカル実行する
最先端のコーディングモデルを、自分自身のハードウェアで実行できるようになりました。ZhipuはGLM 5.2のウェイトをMITライセンスで公開しました。これにより、目的は「モデルをダウンロードすること」から「現在のマシンで実行可能かどうかを確認すること」へと変わりました。
このモデルは753B(7530億)のパラメータを持っています。フル精度では1.5 TBのRAMを必要とするため、デスクトップで実行することは不可能です。ローカルで実行するには、量子化(quantization)を使用する必要があります。これにより、品質を多少犠牲にする代わりに、メモリ使用量を抑えることができます。
以下に、さまざまな構成での動作状況を示します。
• Mac Studio M3 Ultra (512 GB): 4-bit量子化を使用してください。これが最高の品質と実用的な速度を実現します。 • Mac Studio M3 Ultra (256 GB): 2-bit量子化を使用してください。これは個人開発者にとって最も現実的なセットアップです。速度は毎秒3〜9トークン程度になります。 • 4090 + 256 GB DDR5搭載デスクトップ: 2-bit量子化を使用してください。オフロード経由で動作しますが、速度は遅いままです。 • MacBookまたは64-128 GBのマシン: これは試さないでください。代わりにホスト型のAPIを使用してください。
なぜローカルで実行するのか?
- プライバシー: コードやプロンプトがマシンから外部に出ることはありません。
- オフライン作業: エアギャップ(ネットワークから隔離された)環境で使用できます。
- 既存のハードウェア: すでに購入済みのMac Studioを他の作業と併用できます。
- 学習: レート制限を気にすることなく、サンプリング設定やローカルエンドポイントをテストできます。
成功のためのルール:
- メモリが最低条件です。少なくとも256 GBのRAMが必要です。それ以下の場合は、ここで諦めてホスト型のプランを使用してください。
- 正しいリポジトリを使用してください。HuggingFace上のUnslothからGGUF量子化モデルをダウンロードしてください。公式リポジトリはローカルでの使用には大きすぎます。
- コンテキスト量に注意してください。ローカル環境では100万トークンのフルウィンドウを扱うのは困難です。実際には16Kから64K程度を想定してください。
- 正しいパラメータを設定してください。temperature 1.0、top-p 0.95、min-p 0.01を使用してください。設定が間違っていると、モデルが「頭が悪く」感じられます。
単一のローカルマシンは、一人のためのツールです。2人の開発者が同時に使用すると、動作は極端に遅くなります。チームで使用する場合は、データセンターのGPUまたはホスト型のAPIが必要です。
出典: https://dev.to/owen_fox/run-glm-52-locally-2026-2-bit-on-a-256gb-mac-or-4090-box-1apn
オプションの学習コミュニティ: https://t.me/GyaanSetuAi
