تخطَّ إلى المحتوى

حالة محركات استدلال LLM في 2026: vLLM و llama.cpp و Aphrodite و LMDeploy

· 13 min read · default
aillminferencequantizationservinglocal-llm

قبل بضع سنوات تشغيل نموذج لغة كبير بنفسك عنى برنامج بحثي وكمية من ذاكرة GPU وصلاة. اليوم عنى الاختيار بين مجموعة صغيرة من محركات الاستدلال الناضجة المتخصصة — والاختيار مهم لأنها أدوات مختلفة فعلاً المحسنة لحالات مختلفة. هل تحتاج إلى خدمة الآلاف من المستخدمين المتزامنين بأقصى إنتاجية أو تشغيل نموذج على محمول بلا GPU؟ هل تحتاج إلى تحميل نموذج مكمم مجتمع في صيغة غريبة أو احتواء نموذج 70 مليار معامل على بطاقة رسومات واحدة للمستهلك؟ الإجابة الصادقة على "أفضل محرك استدلال LLM في 2026" هي أنه لا يوجد واحد؛ هناك محفظة واختيار جيد يعني فهم ما كل محرك من أجل.

هذا الدليل يرسم منظر الاستدلال 2026 من خلال الوظيفة التي يقوم بها كل محرك بشكل أفضل. المشاريع الرئيسية مفتوحة المصدر — vLLM و llama.cpp و Aphrodite Engine و LMDeploy و SGLang و ExLlamaV3 — كل شخصية واضحة والعثور على تلك الشخصيات هو كيفية تجنب فرض الأداة الخاطئة على عبء العمل الخاص بك. على طول الطريق يغطي المفاهيم التي تدفع فعلاً القرار: الإنتاجية مقابل الكمون والتكميم واحتواء الأجهزة.

المفاهيم التي تدفع الاختيار

قبل المحركات ثلاث أفكار تشرح معظم الاختلافات بينهما. الأول هو الإنتاجية مقابل الكمون. خدمة العديد من المستخدمين في وقت واحد هي مشكلة إنتاجية: تريد إبقاء GPU مشبعة من خلال دفع الطلبات معاً مما يزيد إجمالي الرموز في الثانية عبر الجميع. تشغيل نموذج واحد لمستخدم واحد هي مشكلة كمون: تريد أسرع استجابة ممكنة لذلك تدفق واحد. الأجهزة تحسن لواحد أو الآخر والتقنيات تختلف — batching مستمر و paged attention للإنتاجية و single-stream lean للكمون.

الثانية هي التكميم. أوزان نموذج بدقة كاملة كبيرة؛ يتم تخزين التكميم في دقة منخفضة (8-بت أو 4-بت أو أقل) لتقليل الذاكرة وتسريع الاستدلال بعض تكلفة للجودة. لكن التكميم ليس شيء واحد — إنه حديقة حيوانات من التنسيقات (GGUF و GPTQ و AWQ و EXL3 وغيره) لكل منها أدوات مختلفة وجودة/حجم المقايضة وأجهزة الدعم. التنسيقات التي يمكن لمحرك تحميله غالباً ما يكون العامل المقرر لأن نموذجك قد يكون فقط موجود في تنسيقات معينة.

الثالثة هي احتواء الأجهزة. مركز بيانات مع H100s له احتياجات مختلفة عن مطور على MacBook أو متحمس لديه GPU واحد للمستهلك. بعض المحركات استهداف أجهزة NVIDIA الخادم والمقياس عبر GPUs كثيرة؛ آخرون يعملون في أي مكان بما في ذلك CPU و Apple Silicon؛ الآخرون بعصر نماذج كبيرة إلى بطاقة استهلاك واحدة. مطابقة المحرك مع أجهزتك نصف القرار.

vLLM: معيار الإنتاجية

vLLM هو محرك المرجع لخدمة الإنتاجية العالية وكسب هذا الموضع مع PagedAttention — أسلوب يدير ذاكرة التخزين المؤقت KV مثل الذاكرة الافتراضية في الصفحات مما يلغي الهدر الذي قيد سابقاً كم طلب يمكن دفعه معاً. جنباً إلى جنب مع batching المستمر يسمح هذا لـ vLLM بإبقاء GPU مشبعة مع طلبات متزامنة كثيرة يوصل إجمالي الرموز لكل ثانية التي تطالب الخدمة الإنتاجية. يكشف عن واجهة برمجية متوافقة مع OpenAI و يدعم tensor و pipeline parallelism للمقياس عبر GPUs وأصبح الأساس الافتراضي الذي تبني أدوات أخرى عليه.

vLLM هو الخيار الصحيح عندما تكون مشكلتك خدمة — مستخدمون كثيرون و حركة إنتاج و تنسيقات نموذج معيارية و أجهزة NVIDIA — والتي تريد الإنتاجية والنضج النظام البيئي التي تأتي مع أكثر محرك اعتماداً على نطاق واسع. ليست الأداة لتشغيل نموذج على محمول الخاص بك وتاريخياً تغطية تنسيق التكميم تخلفت النسق الأكثر غرابة المجتمع (رغم أنها تستمر في التوسع). بالنسبة للوظيفة الأساسية لخدمة النماذج المعيارية بمقياس إنه الافتراضي الآمن والقوي.

llama.cpp: محلي والمكان الآخر

إذا كانت vLLM تملك مركز البيانات llama.cpp تملك كل مكان آخر. مكتوب في C/C++ بدون اعتماديات وقت التشغيل الثقيلة يعمل LLMs في كل مكان تقريباً — CPUs وGPUs الاستهلاك و Apple Silicon وحتى الهواتف و Raspberry Pis — وهو أحد مشاريع AI الأكثر حضور نجوم على GitHub لسبب وجيه. صيغة GGUF و نظام k-quant (Q4_K_M و Q5_K_S و Q6_K وهكذا) توفر تكميم block-wise من 8-بت وأقل 2-بت مما يتيح لك الاتصال في بالضبط كم جودة للتبادل لكم الذاكرة و تشغيل نماذج لن تناسب خلاف ذلك.

llama.cpp هو الاختيار لـ محلي وكمون الاستدلال: تشغيل نموذج على آلتك الخاصة وضعية بدون GPU مطلوب أو تضمين استدلال LLM تطبيق يجب أن يعمل على أجهزة المتواضعة. إنه ما يسبب حصة كبيرة من النظام البيئي المحلي LLM بما في ذلك أدوات مثل Ollama التي تلفه في واجهة أصدقاء. عندما تهم المرونة والتشغيل في أي مكان أكثر من raw متعدد المستخدم الإنتاجية llama.cpp لا مثيل له — و صيغة GGUF أصبحت لغة فرنكا للمجتمع-المشاركة نماذج مكممة.

Aphrodite: آكل التكميم

Aphrodite Engine هو شوكة من vLLM التي تبقي بنية الإنتاجية من vLLM لكن تضيف شيئين: أوسع تغطية تنسيق التكميم من أي محرك و محاكيات متقدمة. حيث يدعم vLLM مجموعة متزايدة لكن منسقة من التنسيقات aphrodite يحمل ما يقرب من كل شيء المجتمع ينتج — GGUF و GPTQ و AWQ و ExLlamaV3 و AQLM و BitNet و Marlin والمزيد و كميم ذاكرة التخزين المؤقت KV. على جانب العينات يشحنها DRY (مضاد التكرار) و XTC (الإبداعية) و Mirostat مما يهم للدردشة والتطبيقات الإبداعية.

Aphrodite هو الاختيار عندما تحتاج إلى خدمة نموذج (حتى تريد الإنتاجية من فئة vLLM) لكن النموذج موجود في صيغة vLLM لا يمكن تحميل أو عندما تريد تلك المحاكيات المتقدمة كميزات من الدرجة الأولى. ظهرت من النموذج المجتمع والنظام البيئي لعب الأدوار والتراث هذا يظهر في أولويتها: تشغيل أياً تكميم المجتمع أنتج مع سيطرة sampler دقيق. إذا وجدت أبداً نموذج مكمم مثالي فقط اكتشف محركك لا يمكن تحميل صيغته aphrodite هي الإجابة.

LMDeploy: ضغط بالإضافة إلى الخدمة والـ VLMs

LMDeploy من نظام InternLM/OpenMMLab يزاوج محرك خدمة عالي الإنتاجية (TurboMind) مع مجموعة أدوات ضغط مدمجة. يوصل الإنتاجية قوية عبر batching دائم و KV cache محظور يقدم 4-بت وزن AWQ التكميم و KV-cache quantization من صندوق الأدوات وقوي خاصة دعم نماذج رؤية اللغة (VLMs) مثل InternVL و Qwen-VL. نقطة البيع هي التكامل: كمم نموذج وخدمه مع مجموعة أدوات واحدة بدلاً من خيوط أدوات منفصلة معاً.

LMDeploy هو الاختيار عندما تريد مسار من النهاية إلى النهاية من نموذج دقة كاملة إلى نقطة نهاية مكممة خدمة بكفاءة خاصة إذا كنت خدمة نماذج متعددة الوسائط أو العمل داخل النظام البيئي InternLM. إنه أقل حول تحميل كل تنسيق مجتمع (مكان aphrodite) والمزيد حول خط أنابيب ضغط-و-خدمة نظيف عالي الأداء مع دعم VLM من الدرجة الأولى.

SGLang و ExLlamaV3: متخصصان إضافيان

محركان إضافيان تجميل المنظر لاحتياجات محددة. SGLang يركز على خدمة عالية الأداء مع قوة خاصة في الجيل المهيكل والبرامج المعقدة متعددة الخطوات LLM — RadixAttention محسّن تخزين مؤقت البادئة مما يسطع عندما طلبات عديدة تشارك بادئات موجه (شائع في العامل والقلة-لقطة أحمال العمل). إنه محرك إنتاجية قوي مع حافة للأنماط المهيكل والبرمجية الجيل.

ExLlamaV3 تهاجم مشكلة أضيق قيمة: جودة قصوى لكل VRAM على GPUs الاستهلاك NVIDIA. صيغة EXL3 توفر تكميم معدل البت المتغير — تستهدف متوسط bits-per-weight بدقة — مما يتيح لك احتواء نموذج كبير على بطاقة 24GB واحدة بأفضل جودة تسمح الذاكرة. بالنسبة للهاوي المحلي تشغيل نماذج كبيرة على GPU واحد للمستهلك ExLlamaV3 غالباً يستخرج الجودة المستخدمة أكثر من نفس VRAM مقارنة ديكور-دقة بدل والإضافات إلى خوادم مثل TabbyAPI للحصول على نقطة نهاية متوافقة مع OpenAI.

فهم مقايضات التكميم

لأن التكميم هو الرافعة التي غالباً ما تقرر محرك يمكنك استخدام يستحق فهم ما تتاجر عليه بالفعل عندما تتحول. التكميم يقلل دقة أوزان النموذج — من 16-بت إيجابات وأسفل 8 أو 4 أو حتى بت أقل — والتأثير تقريباً خطي على الذاكرة: تكميم 4-بت من نموذج تقريباً ربع الحجم من 16-بت الأصلي وهذا ما يتيح 70 مليار-معامل نموذج الذي سيحتاج 140GB بدقة كاملة بعصر في بطاقة 24GB واحدة للمستهلك. فائدة السرعة يتبع لأن ذاكرة أقل حركة المرور و أوزان أصغر يعني استدلال أسرع خاصة عندما النطاق الترددي الذاكرة هو الاختناق.

التكلفة جودة لكن العلاقة ليست خطية وهذا الإحصاء الرئيسي. الذهاب من 16-بت إلى 8-بت تقريباً بدون فقدان لمعظم النماذج — الاختلاف الجودة غير محسوس في الممارسة العملية. الذهاب إلى 4-بت عرض تدهور صغير عادة مقبول وهذا لماذا 4-بت تنسيقات مثل Q4_K_M و 4-بت AWQ هي الخيول الأساسية للاستدلال المحلي. تحت 4-بت الجودة تسقط انحدار أكثر حدة ومن 2-بت التدهور كبير رغم الطرق الحديثة مثل EXL3 معدل البت المتغير و AQLM دفع هذا الحدود أبعد من التقنيات الأقدم يمكن. الإرشادات العملية هي استخدم أعلى بت معدل ذاكرتك يسمح: إذا نموذج يناسب 5 أو 6 بت نادراً ما هناك سبب للذهاب أقل وإذا يناسب فقط 3 بت تتوقع الشعور به.

هذا هو أيضاً لماذا تنسيق التكميم — ليس فقط بت معدل — مهم للمحرك اختيار. التنسيقات المختلفة استخدام خوارزميات مختلفة لتقرر كيفية جولة أوزان وهي ليست قابلة للتبديل: نموذج GGUF يحتاج محرك يقرأ GGUF نموذج EXL3 يحتاج ExLlamaV3 أو خادم متوافق نموذج AWQ يحتاج دعم AWQ. المجتمع ينتج نماذج في أي تنسيق أدواته المفضلة استخدم لذا الصيغة نموذجك الهدف موجود فيه يقيد محركات يمكن تخدمها. هذا بالضبط القيد التي تجعل تغطية صيغة aphrodite قيمة وهذا أحياناً يفرض فريق على محرك محدد ليس لأداء لكن ببساطة لأنه الوحيد يمكنه تحميل النموذج يريدون. فهم منحنى معدل البت/الجودة والمنظر الصيغة والاختيار المحرك-الجاني أجزاء التكميم توقف أن تكون غامضة.

اختيار محرك

القرار يقلل إلى مطابقة المحرك مع وظيفتك وأجهزتك. بالنسبة خدمة إنتاج بمقياس على أجهزة NVIDIA مع نماذج تنسيق معيار استخدام vLLM — إنه معيار الإنتاجية مع أعمق النظام البيئي. بالنسبة محلي وضعية أو كمون استدلال أو تشغيل على CPU/Apple Silicon/أجهزة المتواضعة استخدام llama.cpp — لا شيء يطابق المرونة الخاصة بها و صيغة GGUF معيار المجتمع. بالنسبة خدمة نماذج مكممة مجتمع في صيغ غريب أو سيطرة محاكيات متقدمة استخدام Aphrodite Engine — آكل التكميم. بالنسبة خط أنابيب ضغط-و-خدمة من النهاية إلى النهاية خاصة مع نماذج رؤية اللغة استخدام LMDeploy. بالنسبة هندسة/جيل عامل بمقياس إنتاجية اعتبر SGLang. وبالنسبة جودة قصوى-لكل-VRAM على GPU واحد للمستهلك استخدام ExLlamaV3.

النقطة من وراء هي أن هذه المحركات بشكل متزايد تشارك الأسس — عدة بناء على أو شوكة vLLM عديد يتحدث واجهة برمجية متوافقة مع OpenAI والنماذج المكممة تتحرك بينهم — لذا الاختيار أقل حول قفل-في وأكثر عن الشخصية التي تطابق عبء العمل الخاص بك اليوم. فريق قد يستخدم حتى اثنين: llama.cpp للتطوير المحلي و vLLM لخدمة الإنتاج أو LMDeploy لكمم نموذج احتفظ به aphrodite بعدها. شخص التشخيص القيد الهيمنة — الإنتاجية أو المرونة أو عرض التكميم أو جودة-لكل-VRAM — والمحرك الصحيح يتبع.

النقطة الأساسية

لا يوجد محرك استدلال LLM أفضل واحد في 2026 ومطاردة واحد هو الهدف الخاطئ. هناك محفظة ناضجة محرك لديه وظيفة واضحة: vLLM بالنسبة خدمة الإنتاجية في مقياس llama.cpp بالنسبة محلي وكل مكان Aphrodite بالنسبة أوسع تغطية التكميم LMDeploy بالنسبة ضغط-و-خدمة و VLMs SGLang بالنسبة جيل مهيكل و ExLlamaV3 بالنسبة جودة-لكل-VRAM على GPUs الاستهلاك. افهم ثلاث رافعات التي تدفع الاختيار — الإنتاجية مقابل الكمون و تنسيق التكميم و احتواء الأجهزة — طابق المحرك لقيد الهيمنة الخاص بك والأنت سيشغل النماذج أسرع و أرخص و على أجهزة لديك فعلاً.

المراجع والموارد

المحركات

الخلفية والتحليل

Cheatsheets المرتبطة 1337skills