コンテンツにスキップ

ExLlamaV3 - コンシューマ GPU 上の高速量子化 LLM 推論 チートシート

ExLlamaV3 - コンシューマ GPU 上の高速量子化 LLM 推論 チートシート

ExLlamaV3 は 量子化 LLM をコンシューマ NVIDIA GPU 上で実行 するための高速推論ライブラリです。その EXL3 フォーマットは高品質変数ビットレート量子化を提供します — ターゲット平均ビット/重み (例: 3.0, 4.25, 6.0) を正確に品質対 VRAM をトレード — 単一 24GB カードに大規模モデルを適合させながら強力なスループットを保つ。ExLlamaV2 の後継者で、ローカル LLM コミュニティにより限定メモリに大モデルを絞り込むためにお気に入り。

インストール

方法コマンド
pip (プリビルトホイール)pip install exllamav3
ソースからgit clone https://github.com/turboderp-org/exllamav3 && cd exllamav3 && pip install -e .
要件NVIDIA GPU (Ampere+), CUDA, PyTorch
確認python -c "import exllamav3; print('ok')"

EXL3 フォーマット

コンセプト意味
変数ビットレートターゲット平均ビット/重み (bpw), 例: 2.5–8.0
レイヤーごとの精度異なるレイヤーは異なる精度を使用可能
品質/サイズダイアル高い bpw = より良い品質、より多くの VRAM
キャリブレーション量子化中にキャリブレーション データセットを使用

モデルを量子化

# HF モデルを EXL3 に ~4.0 ビット/重みで変換
python -m exllamav3.convert \
  -i meta-llama/Llama-3.1-8B-Instruct \
  -o Llama-3.1-8B-exl3-4.0bpw \
  -b 4.0
フラグ説明
-i, --in_dirソース HF モデル
-o, --out_dir出力 EXL3 ディレクトリ
-b, --bitsターゲット平均ビット/重み
-hb, --head_bits出力ヘッド向け精度
-c, --cal_dirカスタムキャリブレーション データ

Python 推論

from exllamav3 import Model, Config, Cache, Tokenizer, Generator

config = Config.from_directory("Llama-3.1-8B-exl3-4.0bpw")
model = Model.from_config(config)
cache = Cache(model, max_num_tokens=8192)
model.load()

tokenizer = Tokenizer.from_config(config)
generator = Generator(model=model, cache=cache, tokenizer=tokenizer)

output = generator.generate(prompt="Explain quantization briefly.",
                            max_new_tokens=200)
print(output)
オブジェクトロール
ConfigEXL3 dir から モデル設定をロード
Model量子化モデル
CacheKV キャッシュ (サイズが大きい = より長いコンテキスト)
Generator生成を実行

メモリとコンテキスト

レバーエフェクト
量子化時の bpwより低い bpw → より少ない VRAM、いくらかの品質損失
キャッシュサイズより大きい → より長いコンテキスト、より多くの VRAM
キャッシュ量子化量子化 KV キャッシュでコンテキストを拡張
ヘッドビットヘッドを高精度に品質のため保つ

ビットレート選択 (ラフガイド)

ターゲット bpw典型的使用
2.0–2.5非常に大きいモデルを限定 VRAM に適合させる (品質落ちる)
3.0–3.5アグレッシブだが使用可能
4.0–4.5最適なスイートスポット ほとんどの 24GB セットアップ向け
6.0+ほぼロスレス、より多くの VRAM

エコシステム統合

ターゲット注記
TabbyAPIExLlamaV3 を使用する OpenAI 互換サーバー
text-generation-webuiローダーサポート
Aphrodite EngineEXL3 量子化モデルをサーブ可能

ExLlamaV3 vs その他のアプローチ

アスペクトExLlamaV3llama.cpp (GGUF)GPTQ/AWQ
ターゲットコンシューマ NVIDIA GPUCPU + GPU、クロスプラットフォームGPU
量子化変数ビットレート EXL3k-quants固定 4 ビット
精度コントロール良い (任意の bpw)プリセットレベル粗い
最適な用途GPU 上で VRAM ごとの最大品質ポータビリティ、CPU標準 4 ビットサーブ

リソース