ASUS ROG AllyでLLMをローカル実行してみた

Translated for your language. 原文を読む.

AI-assisted draft.

GyaanSetu Editorial3 日前2分で読めます

数週間、ASUS ROG AllyでローカルAIモデルを動かしてみました。楽しいプロジェクトになると思っていましたが、実際にはハードウェアの限界を学ぶことになりました。

クラウドの代わりとしてではなく、ちょっとしたタスクのための特化型ツールとして使用しました。携帯型デバイスでAIを動かすことについて、学んだことをお伝えします。

メモリの壁

携帯型デバイスはユニファイドメモリ・アーキテクチャを採用しています。これは、CPUとGPUが同じRAMを共有することを意味します。デフォルトでは、GPUに割り当てられるメモリはごくわずかです。

モデルがそのメモリ領域に収まらない場合、システムはCPUを使用します。これにより、生成速度は耐え難いほど遅くなります。

解決策:

メモリをさらに絞り出そうとzRAMを使ってみましたが、失敗しました。ほとんどのAIモデルは、すでに圧縮されているGGUFファイルを使用しています。空き容量を増やすために、これ以上圧縮することはできません。

ディスクスワップで補おうともしましたが、スワップは速度を上げるものではありません。むしろ、使い物にならなくなります。モデルがディスクスワップに依存している場合、数秒に1単語しか出力されないでしょう。

スワップを有効にしておく唯一の理由は、RAM不足時にシステムがプロセスを強制終了するのを防ぐためだけです。

AIの出力が途切れたり、カクついたりする場合は、Linuxカーネルの設定を確認してください。

多くの人は最も速いモデルを探しますが、私は代わりに、速度は遅くてもより精度の高いモデルを選びました。

私はこのセットアップをバックグラウンドタスクに使用しています。リクエストを送り、後で結果を確認します。画面を見ているわけではないので、レスポンスに8秒ではなく40秒かかっても気にしません。速い回答ではなく、最良の回答が欲しいのです。

携帯型デバイスでは推論モデル（reasoning models）は避けてください。ステップバイステップの思考プロセスは、スペックの低いハードウェアでは時間がかかりすぎます。品質の向上は、待ち時間に見合わないことが多いです。

16 GBのデバイスは、以下のような用途に最適です：

以下のような用途には向きません：

ローカルAIはツールであり、魔法ではありません。ルーチンワークや軽量な作業には最適です。

Optional learning community: https://t.me/GyaanSetuAi