コンテンツにスキップ

Aphrodite Engine - ハイスループット LLM サーブ チートシート

Aphrodite Engine - ハイスループット LLM サーブ チートシート

Aphrodite Engine は vLLM からフォークされたハイパフォーマンス LLM 推論とサーブ エンジンです。vLLM の PagedAttention と継続的バッチングに構築され、2 つの大きな差別化因子を追加します: 最も広い量子化フォーマット対応 (GGUF, GPTQ, AWQ, ExLlamaV3, AQLM, BitNet, Marlin、その他、プラス量子化 KV キャッシュ) と高度な サンプラー (DRY, XTC, Mirostat) チャット/クリエイティブ使用のために重要。OpenAI 互換 API を公開するため、既存クライアントにドロップイン可能です。

インストール

方法コマンド
pippip install aphrodite-engine
サーブを実行aphrodite run <model>
Dockerdocker run --gpus all -p 2242:2242 alpindale/aphrodite-openai
要件NVIDIA GPU + CUDA (AMD/ROCm は一部ビルドで対応)
確認aphrodite --version

サーバーを起動

# OpenAI 互換 API でモデルをポート 2242 でサーブ
aphrodite run meta-llama/Llama-3.1-8B-Instruct

# 量子化 GGUF モデルをサーブ
aphrodite run ./model.Q4_K_M.gguf --quantization gguf

# マルチ GPU テンソル並列度
aphrodite run big-model --tensor-parallel-size 2
フラグ説明
--quantizationフォーマット: gguf, gptq, awq, exl3, fp8, …
--tensor-parallel-size NN GPU にモデルを分割
--max-model-len Nコンテキスト長
--gpu-memory-utilization 0.9VRAM に対して使用するフラクション
--kv-cache-dtype fp8KV キャッシュを量子化してメモリを節約
--dtypeモデル計算 dtype (auto, half, bfloat16)
--port 2242API ポート
--api-keys KEYAPI キーを要求

OpenAI 互換 API

curl http://localhost:2242/v1/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"default","prompt":"Hello","max_tokens":50}'
エンドポイント目的
/v1/completionsテキスト補完
/v1/chat/completionsチャット補完
/v1/modelsロードされたモデルをリスト
/v1/embeddingsエンベッディング (エンベッディングモデル)

量子化フォーマット

フォーマット用途
GGUFllama.cpp スタイル k-quants (コミュニティモデル)
GPTQ / AWQ人気の 4 ビット重みのみフォーマット
ExLlamaV3 (exl3)高品質変数ビット量子化
AQLM / QuIP#極端なロービット
Marlin高速 GPTQ/AWQ カーネル
fp88 ビットフロート重み/アクティベーション

広さがポイント: Aphrodite はバニラ vLLM が読めないコミュニティ量子化モデルをサーブできます。

高度なサンプラー

サンプラーエフェクト
DRY「Don”t Repeat Yourself」— 逐語的繰り返しを削減
XTCExclude Top Choices — 創造性を上昇
Mirostatパープレキシティ設定ポイントをターゲット
min_p, top_a, tfs追加切り詰めサンプラー

これらを要求内の追加フィールドとして (例 "dry_multiplier": 0.8) パス。

パフォーマンスチューニング

オプションエフェクト
--tensor-parallel-sizeGPU 間で スケール
--kv-cache-dtype fp8より長いコンテキスト/より多くの並行性に適合
--max-num-seqs並行性 (バッチ) 制限
--enforce-eagerCUDA グラフを無効化 (デバッグ)
--quantization品質をメモリ/速度と交換

Aphrodite vs その他の推論エンジン

アスペクトAphroditevLLMllama.cpp
ベースvLLM フォーク元来C/C++
クワンタイズ対応最も広い成長中GGUF k-quants
サンプラーDRY/XTC/Mirostat標準多数
最適な用途コミュニティ量子化モデル、チャット最大スループット、標準フォーマットCPU/エッジ、GGUF

リソース