コンテンツにスキップ

Aphrodite Engine - ハイスループット LLM サーブチートシート

Aphrodite Engine - ハイスループット LLM サーブチートシート

Aphrodite Engine は vLLM からフォークされたハイパフォーマンス LLM 推論とサーブエンジンです。vLLM の PagedAttention と継続的バッチングに構築され、2 つの大きな差別化因子を追加します: 最も広い量子化フォーマット対応 (GGUF, GPTQ, AWQ, ExLlamaV3, AQLM, BitNet, Marlin、その他、プラス量子化 KV キャッシュ) と高度な サンプラー (DRY, XTC, Mirostat) チャット/クリエイティブ使用のために重要。OpenAI 互換 API を公開するため、既存クライアントにドロップイン可能です。

インストール

方法	コマンド
pip	`pip install aphrodite-engine`
サーブを実行	`aphrodite run <model>`
Docker	`docker run --gpus all -p 2242:2242 alpindale/aphrodite-openai`
要件	NVIDIA GPU + CUDA (AMD/ROCm は一部ビルドで対応)
確認	`aphrodite --version`

サーバーを起動

# OpenAI 互換 API でモデルをポート 2242 でサーブ
aphrodite run meta-llama/Llama-3.1-8B-Instruct

# 量子化 GGUF モデルをサーブ
aphrodite run ./model.Q4_K_M.gguf --quantization gguf

# マルチ GPU テンソル並列度
aphrodite run big-model --tensor-parallel-size 2

フラグ	説明
`--quantization`	フォーマット: `gguf`, `gptq`, `awq`, `exl3`, `fp8`, …
`--tensor-parallel-size N`	N GPU にモデルを分割
`--max-model-len N`	コンテキスト長
`--gpu-memory-utilization 0.9`	VRAM に対して使用するフラクション
`--kv-cache-dtype fp8`	KV キャッシュを量子化してメモリを節約
`--dtype`	モデル計算 dtype (`auto`, `half`, `bfloat16`)
`--port 2242`	API ポート
`--api-keys KEY`	API キーを要求

OpenAI 互換 API

curl http://localhost:2242/v1/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"default","prompt":"Hello","max_tokens":50}'

エンドポイント	目的
`/v1/completions`	テキスト補完
`/v1/chat/completions`	チャット補完
`/v1/models`	ロードされたモデルをリスト
`/v1/embeddings`	エンベッディング (エンベッディングモデル)

量子化フォーマット

フォーマット	用途
GGUF	llama.cpp スタイル k-quants (コミュニティモデル)
GPTQ / AWQ	人気の 4 ビット重みのみフォーマット
ExLlamaV3 (exl3)	高品質変数ビット量子化
AQLM / QuIP#	極端なロービット
Marlin	高速 GPTQ/AWQ カーネル
fp8	8 ビットフロート重み/アクティベーション

広さがポイント: Aphrodite はバニラ vLLM が読めないコミュニティ量子化モデルをサーブできます。

高度なサンプラー

サンプラー	エフェクト
DRY	「Don”t Repeat Yourself」— 逐語的繰り返しを削減
XTC	Exclude Top Choices — 創造性を上昇
Mirostat	パープレキシティ設定ポイントをターゲット
`min_p`, `top_a`, `tfs`	追加切り詰めサンプラー

これらを要求内の追加フィールドとして (例 "dry_multiplier": 0.8) パス。

パフォーマンスチューニング

オプション	エフェクト
`--tensor-parallel-size`	GPU 間でスケール
`--kv-cache-dtype fp8`	より長いコンテキスト/より多くの並行性に適合
`--max-num-seqs`	並行性 (バッチ) 制限
`--enforce-eager`	CUDA グラフを無効化 (デバッグ)
`--quantization`	品質をメモリ/速度と交換

Aphrodite vs その他の推論エンジン

アスペクト	Aphrodite	vLLM	llama.cpp
ベース	vLLM フォーク	元来	C/C++
クワンタイズ対応	最も広い	成長中	GGUF k-quants
サンプラー	DRY/XTC/Mirostat	標準	多数
最適な用途	コミュニティ量子化モデル、チャット	最大スループット、標準フォーマット	CPU/エッジ、GGUF

リソース