GGUF:ノートPCでAIを動かすためのファイル形式

大規模言語モデルを動かすのに、巨大なサーバーは必要ありません。必要なのは、適切なファイル形式だけです。

OllamaやLM Studioを使っているなら、すでにGGUFを利用しています。この形式は、知能をデータセンターから手元のデバイスへと移すことで、AIの世界を変えました。

GGUFとは?

GGUFは単一のバイナリファイルです。モデルの重み、トークナイザー、アーキテクチャのメタデータを一つにまとめています。追加の設定フォルダや複雑なPython環境を用意する必要はなく、すぐに動作します。

ファイル名に含まれる量子化(quantization)の選択は、一つの判断基準となります。例えば「Q4_K_M」という名前は、スピードとサイズのために、どれだけの品質を妥協するかを示しています。

名前の読み方:

  • 数字は重みあたりのビット数です。Q8は8ビット、Q4は4ビットを使用します。
  • K-quantsは現代の標準です。重要なレイヤーにより多くのビットを割り当てることで、高い品質を維持します。
  • 接尾辞はサイズを表します。MはMedium(中)、SはSmall(小)、LはLarge(大)を意味します。

ハードウェア別クイックガイド:

  • 専用GPUなし、またはVRAM 8GB以下の場合:Q4_K_Mを使用してください。サイズと知能のバランスが最も優れています。
  • VRAM 12GB〜16GBの場合:より高い品質を求めるならQ5_K_MまたはQ6_Kを使用してください。
  • VRAM 24GB以上、または精密な作業を行う場合:Q8_0を使用してください。数学やコードにおいて、品質の低下がほとんどありません。

なぜサイズが重要なのか?

テキスト生成はメモリ帯域幅に依存します。ファイルサイズが小さいほど、コンピュータが各単語を書き出すために読み込むバイト数が少なくなります。これにより、モデルの動作が高速化されます。

Q4モデルは、Q8モデルよりも高速に動作することがよくあります。これは「思考」が速くなったわけではなく、単に「読み込む量」が少なくなっただけです。

トレードオフ:

  • チャットや執筆用:Q4_K_Mが最適です。1〜3%の品質低下は、ほとんど気になりません。
  • 数学やコーディング用:Q8_0を使用してください。4ビットモデルにおけるわずかなエラーが、複雑なロジックを台無しにすることがあります。

設定を勘で決めるのはやめましょう。メモリを確認して、適切な量子化(quant)を選んでください。

出典: https://dev.to/sayed_ali_alkamel/gguf-explained-the-file-format-that-put-llms-on-your-laptop-12lh

オプションの学習コミュニティ: https://t.me/GyaanSetuAi