تخطَّ إلى المحتوى

Aphrodite Engine - خدمة LLM عالية الإنتاجية

Aphrodite Engine - خدمة LLM عالية الإنتاجية

Aphrodite Engine هو محرك استدلال وخدمة LLM عالي الأداء المنسوخ من vLLM. يبني على PagedAttention و continuous batching من vLLM، ثم يضيف اثنان من المميزات الكبيرة: تغطية تنسيق تكميم الأوسع لأي محرك (GGUF و GPTQ و AWQ و ExLlamaV3 و AQLM و BitNet و Marlin وغيره، بالإضافة إلى ذاكرة التخزين المؤقت KV المكممة) و محاكيات متقدمة (DRY و XTC و Mirostat) التي تهم لاستخدام الدردشة/الإبداعي. يكشف واجهة برمجية متوافقة مع OpenAI، لذا يمكن إسقاطها في عملاء موجودة.

التثبيت

الطريقةالأمر
pippip install aphrodite-engine
قم بتشغيل الخادمaphrodite run <model>
Dockerdocker run --gpus all -p 2242:2242 alpindale/aphrodite-openai
المتطلباتNVIDIA GPU + CUDA (AMD/ROCm مدعومة في بعض البنى)
التحققaphrodite --version

بدء الخادم

# خدمة نموذج مع واجهة برمجية متوافقة مع OpenAI على المنفذ 2242
aphrodite run meta-llama/Llama-3.1-8B-Instruct

# خدمة نموذج GGUF مكمم
aphrodite run ./model.Q4_K_M.gguf --quantization gguf

# Tensor parallelism متعدد GPU
aphrodite run big-model --tensor-parallel-size 2
العلمالوصف
--quantizationالصيغة: gguf و gptq و awq و exl3 و fp8 و …
--tensor-parallel-size Nتقسيم النموذج عبر N GPUs
--max-model-len Nطول السياق
--gpu-memory-utilization 0.9جزء من VRAM للاستخدام
--kv-cache-dtype fp8كمّم ذاكرة التخزين المؤقت KV لحفظ الذاكرة
--dtypedtype حساب النموذج (auto و half و bfloat16)
--port 2242منفذ API
--api-keys KEYمطلوب مفتاح API

واجهة برمجية متوافقة مع OpenAI

curl http://localhost:2242/v1/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"default","prompt":"Hello","max_tokens":50}'
نقطة نهايةالغرض
/v1/completionsاستكمال النص
/v1/chat/completionsاستكمال الدردشة
/v1/modelsقوائس النماذج المحملة
/v1/embeddingsالتضمينات (نماذج التضمين)

تنسيقات التكميم

الصيغةالاستخدام
GGUFنمط llama.cpp k-quants (نماذج المجتمع)
GPTQ / AWQتنسيقات 4-بت شهيرة
ExLlamaV3 (exl3)تكميم متغير البت عالي الجودة
AQLM / QuIP#البت المنخفضة للغاية
Marlinمراوى GPTQ/AWQ سريعة
fp8أوزان عائمة 8-بت/تفعيلات

الاتساع هو النقطة: يمكن لـ Aphrodite خدمة نماذج مكممة من المجتمع التي لا يمكن لـ vLLM الفانيليا تحميلها.

محاكيات متقدمة

محاكاةالتأثير
DRY”Don”t Repeat Yourself” — يقلل التكرار الحرفي
XTCاستبعد الخيارات الأعلى — تعزيز الإبداع
Mirostatالهدف إلى نقطة perplexity
min_p و top_a و tfsمحاكيات truncation إضافية

مرر هذه كحقول إضافية في الطلب (مثل "dry_multiplier": 0.8).

ضبط الأداء

الخيارالتأثير
--tensor-parallel-sizeمقياس عبر GPUs
--kv-cache-dtype fp8احتواء سياق أطول / مزيد من التزامن
--max-num-seqsحد التزامن (دفعة)
--enforce-eagerتعطيل رسوم بيانات CUDA (التصحيح)
--quantizationالتبادل بين الجودة والذاكرة/السرعة

Aphrodite مقابل محركات الاستدلال الأخرى

الجانبAphroditevLLMllama.cpp
القاعدةvLLM forkالأصليC/C++
تغطية التكميمالأوسعمتزايدGGUF k-quants
محاكياتDRY/XTC/Mirostatمعياريالكثير
الأفضل لـنماذج مكممة من المجتمع والدردشةالحد الأقصى من الإنتاجية والتنسيقات المعياريةCPU/edge و GGUF

موارد