콘텐츠로 이동

Aphrodite Engine - 고처리량 LLM 서빙 치트시트

Aphrodite Engine - 고처리량 LLM 서빙 치트시트

Aphrodite Engine은 vLLM에서 포크된 고성능 LLM 추론 및 서빙 엔진입니다. vLLM의 PagedAttention과 연속 배치를 기반으로 하면서, 두 가지 큰 차이점을 더합니다: 모든 엔진 중 가장 광범위한 양자화 형식 커버리지(GGUF, GPTQ, AWQ, ExLlamaV3, AQLM, BitNet, Marlin 등, 양자화된 KV 캐시 포함) 그리고 고급 샘플러 (DRY, XTC, Mirostat)로 채팅/창의적 사용에 중요합니다. OpenAI 호환 API를 노출하므로 기존 클라이언트에 바로 적용됩니다.

설치

방법명령어
pippip install aphrodite-engine
서버 실행aphrodite run <model>
Dockerdocker run --gpus all -p 2242:2242 alpindale/aphrodite-openai
요구사항NVIDIA GPU + CUDA (일부 빌드에서 AMD/ROCm 지원)
검증aphrodite --version

서버 시작

# 포트 2242에서 OpenAI 호환 API를 사용하여 모델 제공
aphrodite run meta-llama/Llama-3.1-8B-Instruct

# 양자화된 GGUF 모델 제공
aphrodite run ./model.Q4_K_M.gguf --quantization gguf

# 다중 GPU 텐서 병렬화
aphrodite run big-model --tensor-parallel-size 2
플래그설명
--quantization형식: gguf, gptq, awq, exl3, fp8, …
--tensor-parallel-size N모델을 N개 GPU 전체에 분할
--max-model-len N컨텍스트 길이
--gpu-memory-utilization 0.9VRAM 사용 비율
--kv-cache-dtype fp8KV 캐시를 메모리 절감을 위해 양자화
--dtype모델 계산 dtype (auto, half, bfloat16)
--port 2242API 포트
--api-keys KEYAPI 키 필요

OpenAI 호환 API

curl http://localhost:2242/v1/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"default","prompt":"Hello","max_tokens":50}'
엔드포인트목적
/v1/completions텍스트 완성
/v1/chat/completions채팅 완성
/v1/models로드된 모델 목록
/v1/embeddings임베딩 (임베딩 모델)

양자화 형식

형식사용
GGUFllama.cpp 스타일 k-quants (커뮤니티 모델)
GPTQ / AWQ인기있는 4비트 가중치 전용 형식
ExLlamaV3 (exl3)고품질 가변 비트 양자화
AQLM / QuIP#극도의 저비트
Marlin빠른 GPTQ/AWQ 커널
fp88비트 부동소수점 가중치/활성화

폭이 핵심입니다: Aphrodite는 vanilla vLLM이 로드할 수 없는 커뮤니티 양자화 모델을 제공할 수 있습니다.

고급 샘플러

샘플러효과
DRY”Don”t Repeat Yourself” — 축자 반복 감소
XTC상위 선택 제외 — 창의성 강화
Mirostat혼란도 설정점 목표
min_p, top_a, tfs추가 절단 샘플러

요청에서 추가 필드로 전달합니다 (예: "dry_multiplier": 0.8).

성능 튜닝

옵션효과
--tensor-parallel-sizeGPU 전체 확장
--kv-cache-dtype fp8더 긴 컨텍스트에 맞추기 / 더 많은 동시성
--max-num-seqs동시성 (배치) 한계
--enforce-eagerCUDA 그래프 비활성화 (디버깅)
--quantization메모리/속도 대비 품질 거래

Aphrodite vs 다른 추론 엔진

측면AphroditevLLMllama.cpp
베이스vLLM 포크원본C/C++
Quant 커버리지가장 광범위확대 중GGUF k-quants
샘플러DRY/XTC/Mirostat표준많음
최고의 용도커뮤니티 양자화 모델, 채팅최대 처리량, 표준 형식CPU/엣지, GGUF

리소스