Aphrodite Engine - ハイスループット LLM サーブ チートシート
Aphrodite Engine は vLLM からフォークされたハイパフォーマンス LLM 推論とサーブ エンジンです。vLLM の PagedAttention と継続的バッチングに構築され、2 つの大きな差別化因子を追加します: 最も広い量子化フォーマット対応 (GGUF, GPTQ, AWQ, ExLlamaV3, AQLM, BitNet, Marlin、その他、プラス量子化 KV キャッシュ) と高度な サンプラー (DRY, XTC, Mirostat) チャット/クリエイティブ使用のために重要。OpenAI 互換 API を公開するため、既存クライアントにドロップイン可能です。
インストール
| 方法 | コマンド |
|---|
| pip | pip install aphrodite-engine |
| サーブを実行 | aphrodite run <model> |
| Docker | docker run --gpus all -p 2242:2242 alpindale/aphrodite-openai |
| 要件 | NVIDIA GPU + CUDA (AMD/ROCm は一部ビルドで対応) |
| 確認 | aphrodite --version |
サーバーを起動
# OpenAI 互換 API でモデルをポート 2242 でサーブ
aphrodite run meta-llama/Llama-3.1-8B-Instruct
# 量子化 GGUF モデルをサーブ
aphrodite run ./model.Q4_K_M.gguf --quantization gguf
# マルチ GPU テンソル並列度
aphrodite run big-model --tensor-parallel-size 2
| フラグ | 説明 |
|---|
--quantization | フォーマット: gguf, gptq, awq, exl3, fp8, … |
--tensor-parallel-size N | N GPU にモデルを分割 |
--max-model-len N | コンテキスト長 |
--gpu-memory-utilization 0.9 | VRAM に対して使用するフラクション |
--kv-cache-dtype fp8 | KV キャッシュを量子化してメモリを節約 |
--dtype | モデル計算 dtype (auto, half, bfloat16) |
--port 2242 | API ポート |
--api-keys KEY | API キーを要求 |
OpenAI 互換 API
curl http://localhost:2242/v1/completions \
-H "Content-Type: application/json" \
-d '{"model":"default","prompt":"Hello","max_tokens":50}'
| エンドポイント | 目的 |
|---|
/v1/completions | テキスト補完 |
/v1/chat/completions | チャット補完 |
/v1/models | ロードされたモデルをリスト |
/v1/embeddings | エンベッディング (エンベッディングモデル) |
量子化フォーマット
| フォーマット | 用途 |
|---|
| GGUF | llama.cpp スタイル k-quants (コミュニティモデル) |
| GPTQ / AWQ | 人気の 4 ビット重みのみフォーマット |
| ExLlamaV3 (exl3) | 高品質変数ビット量子化 |
| AQLM / QuIP# | 極端なロービット |
| Marlin | 高速 GPTQ/AWQ カーネル |
| fp8 | 8 ビットフロート重み/アクティベーション |
広さがポイント: Aphrodite はバニラ vLLM が読めないコミュニティ量子化モデルをサーブできます。
高度なサンプラー
| サンプラー | エフェクト |
|---|
| DRY | 「Don”t Repeat Yourself」— 逐語的繰り返しを削減 |
| XTC | Exclude Top Choices — 創造性を上昇 |
| Mirostat | パープレキシティ設定ポイントをターゲット |
min_p, top_a, tfs | 追加切り詰めサンプラー |
これらを要求内の追加フィールドとして (例 "dry_multiplier": 0.8) パス。
パフォーマンスチューニング
| オプション | エフェクト |
|---|
--tensor-parallel-size | GPU 間で スケール |
--kv-cache-dtype fp8 | より長いコンテキスト/より多くの並行性に適合 |
--max-num-seqs | 並行性 (バッチ) 制限 |
--enforce-eager | CUDA グラフを無効化 (デバッグ) |
--quantization | 品質をメモリ/速度と交換 |
Aphrodite vs その他の推論エンジン
| アスペクト | Aphrodite | vLLM | llama.cpp |
|---|
| ベース | vLLM フォーク | 元来 | C/C++ |
| クワンタイズ対応 | 最も広い | 成長中 | GGUF k-quants |
| サンプラー | DRY/XTC/Mirostat | 標準 | 多数 |
| 最適な用途 | コミュニティ量子化モデル、チャット | 最大スループット、標準フォーマット | CPU/エッジ、GGUF |
リソース