콘텐츠로 이동

ExLlamaV3 - 소비자 GPU에서 빠른 양자화 LLM 추론 치트시트

ExLlamaV3 - 소비자 GPU에서 빠른 양자화 LLM 추론 치트시트

ExLlamaV3는 소비자 NVIDIA GPU에서 양자화 LLM을 실행하기 위한 빠른 추론 라이브러리입니다. EXL3 형식은 높은 품질, 가변 비트율 양자화를 제공합니다. 평균 비트/가중치 (예: 3.0, 4.25, 6.0)를 목표로 품질에 대해 VRAM을 정확히 거래할 수 있으므로, 큰 모델이 단일 24GB 카드에 맞으면서도 강한 처리량을 유지합니다. ExLlamaV2의 후속입니다. 로컬 LLM 커뮤니티에서 제한된 메모리에 큰 모델을 가압하기 위해 선호됩니다.

설치

방법명령어
pip (사전 빌드 wheel)pip install exllamav3
소스에서git clone https://github.com/turboderp-org/exllamav3 && cd exllamav3 && pip install -e .
요구사항NVIDIA GPU (Ampere+), CUDA, PyTorch
검증python -c "import exllamav3; print('ok')"

EXL3 형식

개념의미
Variable bitrate평균 비트/가중치 목표 (bpw), 예: 2.5–8.0
Per-layer precision다른 계층은 다른 정밀도 사용 가능
Quality/size dial높은 bpw = 더 나은 품질, 더 많은 VRAM
Calibration양자화 중 보정 데이터세트 사용

모델 양자화

# HF 모델을 ~4.0 비트/가중치의 EXL3로 변환
python -m exllamav3.convert \
  -i meta-llama/Llama-3.1-8B-Instruct \
  -o Llama-3.1-8B-exl3-4.0bpw \
  -b 4.0
플래그설명
-i, --in_dir소스 HF 모델
-o, --out_dir출력 EXL3 디렉토리
-b, --bits목표 평균 비트/가중치
-hb, --head_bits출력 헤드의 정밀도
-c, --cal_dir커스텀 보정 데이터

Python 추론

from exllamav3 import Model, Config, Cache, Tokenizer, Generator

config = Config.from_directory("Llama-3.1-8B-exl3-4.0bpw")
model = Model.from_config(config)
cache = Cache(model, max_num_tokens=8192)
model.load()

tokenizer = Tokenizer.from_config(config)
generator = Generator(model=model, cache=cache, tokenizer=tokenizer)

output = generator.generate(prompt="Explain quantization briefly.",
                            max_new_tokens=200)
print(output)
객체역할
ConfigEXL3 디렉토리에서 모델 설정 로드
Model양자화 모델
CacheKV 캐시 (더 크게 = 더 긴 컨텍스트)
Generator생성 실행

메모리 및 컨텍스트

레버효과
bpw at quant time낮은 bpw → 더 적은 VRAM, 일부 품질 손실
Cache size더 크게 → 더 긴 컨텍스트, 더 많은 VRAM
Cache quantization양자화 KV 캐시로 컨텍스트 확장
Head bits품질을 위해 헤드 더 높은 정밀도 유지

비트율 선택 (대략 가이드)

목표 bpw전형적 사용
2.0–2.5매우 큰 모델을 긴장된 VRAM에 맞추기 (품질 저하)
3.0–3.5공격적이지만 사용 가능
4.0–4.5대부분 24GB 설정의 스위트스팟
6.0+거의 무손실, 더 많은 VRAM

생태계 통합

대상노트
TabbyAPIExLlamaV3를 사용하는 OpenAI 호환 서버
text-generation-webui로더 지원
Aphrodite EngineEXL3 양자화 모델 제공 가능

ExLlamaV3 vs 다른 접근법

측면ExLlamaV3llama.cpp (GGUF)GPTQ/AWQ
대상소비자 NVIDIA GPUCPU + GPU, 크로스 플랫폼GPU
양자화가변 비트율 EXL3k-quants고정 4비트
정밀도 제어미세 (임의 bpw)사전 설정 수준거친
최고의 용도GPU 상 VRAM 당 최대 품질이식성, CPU표준 4비트 서빙

리소스