لمدة سنتين كانت قصة تخصيص نماذج اللغة الكبيرة قصة حول الضبط الدقيق المراقب. جمعت أمثلة على السلوك الجيد وقمت بتشغيل LoRA أو ضبط دقيق كامل وتعلم النموذج محاكاتها. هذا النهج ناضج وزهيد وفهمه جيداً — ولمجموعة متزايدة من المشاكل فهو غير كافِ. عندما تكون الشيء الذي تهتم به هو النتيجة بدلاً من الأسلوب — هل حل الوكيل التذكرة هل حقاً استرجعت الأداة متعددة الخطوات الإجابة الصحيحة هل وصلت المفاوضة إلى صفقة — المحاكاة تصطدم بسقف. لا يمكنك جمع أمثلة مراقبة على الإجراء الأمثل في كل خطوة من تفاعل طويل متفرع لأنك لا تعرف ما كان الإجراء الأمثل. ما يمكنك فعله هو السماح للوكيل بالتصرف وإعطاء النتيجة ودفعه نحو أي إنتاج درجة أعلى. هذا التعلم التعزيزي وفي 2026 أصبحت تقنية عملية وسهلة الوصول لتدريب الوكلاء بدلاً من السعي وراء بحث غريب الأطوار.
تم دفع التحول إلى حد كبير من خلال خوارزمية واحدة وموجة من أدوات حولها. GRPO (Group Relative Policy Optimization) ألغت الكثير من الآلية التي جعلت RLHF الكلاسيكي مؤلماً ومجموعة من أطر العمل مفتوحة المصدر — ART و verl و OpenRLHF — جعلتها قابلة للتشغيل بدون بنية مختبر بحث. يشرح هذا الدليل كيفية عمل ضبط دقيق بالتعلم التعزيزي للوكلاء فعلياً في 2026 ويقارن الأطر الثلاثة التي يصل معظم الفريقين إليها ويقدم إرشادات ملموسة حول تصميم المكافأة ومتى يستحق RL المشاكل.
لماذا ينتهي الضبط الدقيق المراقب بالطريق
الضبط الدقيق المراقب هو في جوهره محاكاة الرمز التالي. تعرض النموذج على أزواج input-output وتتعلم التوزيع الشرطي للمخرجات. بالنسبة للمهام حيث يتم التقاط السلوك الجيد بشكل جيد من قبل الأمثلة — مطابقة النبرة واتباع الشكل والإجابة على أسئلة المجال — يعمل هذا بشكل جميل وينبغي أن يبقى الخطوة الأولى. إنه أرخص وأكثر استقراراً وأسهل في الإصلاح من أي شيء ينطوي على RL.
يظهر السقف عندما يتم تعريف السلوك الجيد من خلال نتيجة تتكشف على خطوات عديدة. تأمل وكيل يجيب على أسئلة من خلال البحث في المستندات الداخلية: يصدر استعلام ويقرأ النتائج ويقرر ما إذا كان يجب البحث مرة أخرى وأخيراً يؤلف إجابة. إشارة الجودة الفعلية لديك هي ما إذا كانت الإجابة النهائية صحيحة. لا يوجد لديك استعلام صحيح محتويات في الخطوة الأولى بالنسبة لهذا السياق الجزئي لأن الاستعلام الصحيح يعتمد على ما يعود مما يعتمد على متجر المستندات الذي يتغير. يمكن للـ SFT أن يعلم الوكيل محاكاة عدد قليل من الآثار التي حدثت لتسجيلها لكنه لا يستطيع أن يعلمه تحسين النتيجة النهائية عبر المساحة الهائلة من التفاعلات الممكنة. الوكيل overfits على شكل السطح من أمثلتك بدلاً من تعلم الهدف الأساسي.
يقلب التعلم التعزيزي الإعداد. بدلاً من عرض الإجراء الصحيح تترك الوكيل يتخذ إجراءات خاصة به وتراقب النتيجة وتعين مكافأة وتعديل السياسة لجعل سلوك المكافأة العالية أكثر احتمالاً. يستكشف الوكيل والمكافأة — لا نسخة ثابتة — تحدد النجاح. هذا بالضبط النظام حيث يعيش الوكلاء متعددي الخطوات والذين يستخدمون الأدوات وهذا السبب في أن RL أصبحت تقنية الاختيار لدفع الوكلاء بعد ما يمكن أن يصل إليه SFT وحده.
GRPO: الخوارزمية التي جعلت هذا ممكناً
السبب في أن RL للـ LLMs شعر بأنه خارج الوصول منذ فترة طويلة كان PPO الخوارزمية الشاقة خلف RLHF الأصلي. PPO قوية لكنها تشغيلية ثقيلة: تتطلب تدريب وخدمة نموذج قيمة (ناقد) منفصل إلى جانب السياسة وتقريباً مضاعفة الذاكرة وإضافة نموذج ثاني لضبط ورعاية مستقرة. بالنسبة لمعظم الفريقان كان هذا الحمل محظوراً.
الرؤية الرئيسية لـ GRPO هي أنه يمكنك تقدير ما مدى جودة الإجراء بدون دالة قيمة مكتسبة بمقارنة عدة ردود مأخوذة بعينة في نفس الموجه مع بعضها البعض. تولد مجموعة من الإنجازات والنتيجة لهم جميعاً واستخدم متوسط الفريق كخط أساس. الإنجاز الذي يضرب متوسط الفريق يحصل على ميزة إيجابية؛ واحد يقع أدناه يحصل على واحد سلبي. التصنيف النسبي داخل الفريق يستبدل تقدير القيمة المطلقة الذي قدمه ناقد PPO. لا نموذج ناقد وأقل ذاكرة وحلقة تدريب أبسط بكثير للتفكير فيها.
هذا هو السبب في أن تقريباً كل إطار عمل agent-RL في 2026 يركز على GRPO. جعلت الفرق بين "تحتاج إلى فريق ML مخصص وعنقود" و"يمكنك تشغيل هذا على GPU واحد قادر مع مبلغ معقول من الكود". أطر العمل أدناه هي بحد كبير آراء مختلفة حول كيفية لف GRPO في بنية قابلة للاستخدام.
ART: التعلم التعزيزي الذي يعيش في الكود الخاص بك
ART (Agent Reinforcement Trainer) من OpenPipe يتخذ أكثر موقف يقظة من الثلاثة. خيار التصميم المحدد له هو split بين عميل وخلفية. يقوم العميل بتشغيل rollouts الوكيل — الحلقات الفعلية حيث يتصرف الوكيل — داخل كود التطبيق الخاص بك والحديث إلى النموذج من خلال نقطة نهاية دردشة إكمال متوافقة قياسية مع OpenAI. تتعامل الخلفية مع الآلية الثقيلة: خدمة النموذج للاستدلال مع vLLM وتشغيل تدريب GRPO مع أنوى Unsloth المحسنة. يمكن لكل نصف أن يعمل على آلات مختلفة بحيث تستطيع منطق الوكيل الخاص بك البقاء على جهاز الكمبيوتر المحمول الخاص بك بينما يحدث التدريب على GPU سحابة.
البنية المعمارية أهمية لأنها تعني أنك تكتب rollouts بنفس الطريقة التي تكتب بها الوكلاء. تستدعي النموذج واسمح له باستخدام الأدوات والتقط المسار وتعين مكافأة مع Python عادي. ART ثم يأخذ مجموعات من تلك المسارات وينفذ تحديثات GRPO. لا توجد حاجة إلى إعادة صياغة الوكيل الخاص بك كبيئة RL خاصة؛ RL ملفوف حول الكود الذي كان لديك كنت ستكتبه على أي حال. ART أيضاً تحمل مساعد يسمى RULER للتصنيف النسبي الذي يستخدم نموذج لترتيب المسارات داخل مجموعة عندما لا يكون لديك مقياس نظيف — مفيد للكثير من المهام الحقيقية حيث تكون "أفضل" قابلة للحكم ولكن ليست مباشرة قابلة للقياس.
ART هو نقطة البداية الصحيحة عندما يكون هدفك تحسين وكيل معين قمت ببناؤه بالفعل خاصة متعدد الأدوار والذي يستخدم الأدوات وتريد الاحتفاظ بمنطق rollout في بيئتك الخاصة. يستهدف أفضل كفاءة تدريب من حيث الفئة لهذه الحالة الاستخدام الفردي على مجلس التعليم RL بدلاً من خطوط أنابيب موزعة واسعة.
verl: الإنتاجية والمرونة البحثية
verl (Volcano Engine Reinforcement Learning) يأتي من اتجاه مختلف: RL عالية الأداء وواسعة النطاق للـ LLMs. المبني حول Ray للتوزيع و vLLM للإنشاء السريع verl مصمم للإنتاجية والمرونة التي يحتاجها الباحثون للتجربة مع الخوارزميات وأنظمة المكافآت. يدعم PPO و GRPO وعائلة متنامية من المتغيرات ومصمم للتوسع عبر عدة GPUs بكفاءة.
المقايضة هي أن verl يكشف عن المزيد من آلية RL. تكتسب السيطرة على طوبولوجيا التدريب وتفاصيل الخوارزمية وعقدة الأداء لكنك تأخذ أيضاً على أكثر من الحمل المفاهيمي. verl يلمع للفريقان الذين يفعلون حقاً RL كثيف الحساب — تدريب نماذج أكبر تشغيل عدد من التجارب أو الدفع على الحدود الخوارزمية — حيث يبرر الإنتاجية الخام والقابلية للتخصيص الإعداد الأكثر حدة. إنها أقل من أداة "لف الوكيل الموجود الخاص بي" وأكثر من منصة البحث والمقياس.
OpenRLHF: إنتاج RLHF على نطاق واسع
OpenRLHF يفواتر نفسه كإطار عمل RLHF عالي الأداء وجاهز للإنتاج وأيضاً مبني على Ray و vLLM مع تصميم قائم على الوكيل الموحد. يطبق قائمة قائمة من الخوارزميات — PPO و GRPO و REINFORCE++ و RLOO وأكثر — مع خدع التحسين التي يحتاجها RLHF العملي للبقاء مستقراً على نطاق واسع. نسبه هو خط أنابيب RLHF الكامل: نمذجة المكافأة وتحسين التفضيل وتدريب السياسة عبر الأجهزة الموزعة.
OpenRLHF حافظت على وتيرة حيث يذهب الميدان. أضافت إصدارات 2026 الخاصة بها RL متعدد الأدوار multimodal تسمح للفريقان بتدريب VLMs التي تسبب على الصور عبر خطوات متعددة نهاية إلى نهاية — إشارة أن agent RL يتسع خارج نص الي multimodal tool استخدام. OpenRLHF هو الخيار الطبيعي عندما تحتاج إلى مكدس RLHF ناضج وقابل للتوسع مع اختيار خوارزمية واسع و مرتاح لتشغيل نظام موزع بناءً على Ray.
الاختيار بين الثلاثة
يتتبع القرار شكل المشكلة الخاصة بك وشهيتك للبنية الأساسية. تجاه لART عندما تريد تحسين وكيل معين كتبته بالفعل قيمة الاحتفاظ بمنطق rollout في الكود الخاص بك و تفضل بنية split التي تعمل بشكل مريح على أجهزة متواضعة. تجاه ل verl عندما تهيمن الإنتاجية والمرونة الخوارزمية — نماذج كبيرة عدد من التجارب انحناء بحثي — ويمكنك امتصاص إعداد أكثر عملياً. تجاه ل OpenRLHF عندما تحتاج إلى منصة RLHF قابلة للإنتاج وواسعة الإمكانات على نطاق واسع بما في ذلك RL multimodal ولديك القدرة التشغيلية لتشغيل نظام موزع بناءً على Ray.
تتقارب جميع الثلاثة على نفس غرفة المحركات — GRPO للخوارزمية و vLLM للإنشاء السريع — بحيث يكون الاختيار أقل حول القدرة الخام وأكثر حول مستوى التجريد الذي تريد العمل به. نموذج عقلي مفيد: ART ملفوف RL حول الوكيل بينما verl و OpenRLHF اسأل لك أن تحمل الوكيل الخاص بك في منصة RL الخاصة بهم.
صورة ملموسة من حلقة التدريب
يساعد على جعل التجريد ملموس. تخيل تدريب وكيل بحث المستند — النوع الذي يجيب على سؤال من خلال البحث في قاعدة معرفية داخلية وقراءة النتائج وتأليف إجابة. تحت GRPO تبدو الحلقة هكذا. لكل سؤال تدريب تعينة عينة مجموعة من حلقات الوكيل الكاملة قل ثمانية منهم. كل حلقة هي rollout كامل: الوكيل يصدر بحث ويقرأ النتائج ويقرر ما إذا كان يجب الاستمرار في البحث وينتج إجابة نهائية. لأن أخذ العينات عشوائي ثماني حلقات تختلف — بعض العثور على وثيقة صحيحة بسرعة بعض الحوار بعض الإجابة بثقة لكن خطأ.
تسجيل كل حلقة بعد ذلك مع دالة المكافأة الخاصة بك وإنتاج ثمانية أرقام. GRPO يحسب المتوسط الفريق وتعين كل حلقة ميزة تساوي مدى بعيداً فوق أو أقل من المتوسط هبطت. الحلقتان التان نالت الإجابة الصحيحة الحصول على مزايا إيجابية؛ الثلاثة التي هلوسة الحصول على سلبيات. تحديث السياسة تنحاز النموذج لجعل السلوك ذو الميزة العالية أكثر احتمالاً والسلوك منخفض الميزة أقل احتمالاً — عبر كل رمز من كل حلقة في الفريق. كرر على الكثير من الأسئلة والكثير من الخطوات والوكيل تدريجياً يحول استراتيجيته بالكامل نحو ما يربح المكافأة: أفضل استعلام معرفة متى يتوقف البحث استجوابات الإجابات في النص المسترجع.
ما يجعل هذا قوياً للوكلاء على وجه التحديد هو أن المكافأة فقط لديها لحكم النتيجة النهائية. لم تضطر أبداً إلى تسمية الاستعلام الصحيح في الخطوة الأولى. اكتشف الوكيل من خلال المقارنة والتعزيز أن بعض أنماط الاستعلام تؤدي إلى نتائج أعلى مكافأة. هذا الشيء الذي لا يستطيع SFT القيام به معبراً عن حلقة يمكنك فعلاً تشغيله. ART هياكل هذا كمجموعات مسار مجمعة بالتزامن؛ verl و OpenRLHF يعبرون عن نفس الفكرة من خلال عمال rollout قائمة على Ray. تختلف المفردات لكن مقارنة مجموعة نسبية في قلب GRPO هي نفسها عبر الجميع.
توقعات الأجهزة والتكلفة
ضبط دقيق بالتعلم التعزيزي أثقل من SFT وهو يستحق تحديد التوقعات قبل البدء. التكلفة المهيمنة هي الجيل: كل خطوة تدريب يتطلب أخذ عينات من مجموعات كاملة من rollouts متعددة الخطوات ولوكيل يستخدم الأدوات قد ينطوي كل rollout على عدة استدعاءات نموذج بالإضافة إلى زمن الكمون من الأدوات أنفسهم. هذا هو السبب في أن كل إطار عمل جاد يعتمد على vLLM — الاستدلال المجمع السريع ليس لطيفاً هنا إنه الفرق بين تشغيل تدريب الذي ينتهي بالجملة الليلية وواحد الذي لا ينتهي بسرعة.
لنموذج صغير في نطاق 3–8B مع محولات نمط LoRA GPU مركز بيانات حديث واحد غالباً ما يكون كافياً لرؤية إشارة حقيقية خاصة مع خلفية Unsloth المحسنة من ART وهي معايرة تماماً لهذا كفاءة GPU واحد بالضبط. التوسع إلى نماذج أكبر أو أحجام مجموعات أكبر يدفعك نحو طوبولوجيا متعددة GPU القائمة على Ray التي تم بناء verl و OpenRLHF من حولها. سلسلة عملية هي نموذج جائزة rollout على أصغر نموذج قابل للحياة محلياً تأكيد منحنى المكافأة اتجاهات صعود على مجموعة بيانات صغيرة وفقط ثم التزم GPU السحابة إلى تشغيل أكبر. البنية split client/server ART يروج مريحة بالضبط لأنها تسمح بقاء كود rollout النموذج الأولي دون تغيير عندما تنقل الخلفية إلى أجهزة أكبر.
تصميم المكافأة هو العمل الحقيقي
أيهما إطار عمل تختار الإطار ليس حيث سينجح أو فشل المشروع الخاص بك. وظيفة المكافأة هي. التعلم التعزيزي يحسن بالضبط ما تكافئ مما يعني مكافأة سيئة تحصل على وكيل ممتاز في الشيء الخطأ — ظاهرة معروفة باسم reward هاكينج. عدد من المبادئ مساعدة متسقة بشكل متسق.
احفظ المكافآت مربوطة ومقياسة بشكل جيد. GRPO يعمل من مزايا نسبية داخل مجموعة والمكافآت المتغيرة بشكل بري أو غير مقيدة جعل تلك تقديرات الميزة ضجة والتدريب غير مستقر. كافئ النتيجة بدلاً من الصياغة: إذا سجلت كيف يصاغ الجواب الوكيل سيتعلم الصياغة بدلاً من الحل. حيث يكون نسب الائتمان متعدد الخطوات صعباً تشكيل صغير يكافئ النجاح الوسيط — استدعاء أداة أرجعت بيانات مفيدة استرجاع ضرب الوثيقة الصحيحة — يمكن أن يساعد الوكيل على اكتشاف استراتيجيات جيدة بدون تحديدها. والتحقق من المكافأة الخاصة بك على حفنة من rollouts المفتشة يدويها قبل التوسع: اقرأ ما فعله الوكيل فعلاً لكسب درجة عالية وتأكد من مطابقة نيتك. تقريباً كل فشل RL تتبع العودة إلى مكافأة قاست شيء مختلف قليلاً عما قصد الفريق.
أخيراً احترم التكلفة وعدم الاستقرار الذي يأتي مع RL. إنها أكثر جشعاً للحساب وأكثر تقلباً من SFT. ابدأ مع أصغر نموذج ومجموعة بيانات يمكنها إظهار إشارة سجل منحنيات المكافأة والخسارة بجنون (جميع ثلاثة أطر تكامل مع Weights & Biases) وفقط مقياس مرة واحدة تثق المكافأة والاتجاه. RL هو أداة قوية للوظيفة المحددة لتحسين النتائج — وواحد محبط إذا وصلت إليه قبل SFT قد استنفدت.
الخط السفلي
ضبط دقيق بالتعلم التعزيزي عبر إلى السيل الرئيسي في 2026 لأن GRPO أزال الحمل النموذج الناقد الذي جعل RLHF غير عملي وعنه ART و verl و OpenRLHF حولت الخوارزمية إلى البنية الأساسية قابلة للاستخدام. استخدم SFT أولاً؛ يبقى الافتراضي أرخص وأكثر استقراراً. تحول إلى RL عندما يكون النجاح نتيجة تتطور على خطوات عديدة ولا يمكن التقاطها بالمحاكاة. اختر ART لتلف RL حول وكيل لديك بالفعل verl للإنتاجية والمرونة البحثية و OpenRLHF لـ RLHF قابل للتوسع متعدد القدرات. ثم أنفق معظم جهدك ليس على الإطار ولكن على وظيفة المكافأة — لأنه في التعلم التعزيزي تحصل بالضبط على ما تطلبه.
المراجع والموارد
أطر العمل
- ART (Agent Reinforcement Trainer) — GitHub ومنشور الإطلاق
- verl — GitHub
- OpenRLHF — GitHub
- vLLM وUnsloth (خلفيات الاستدلال + التدريب)
الخوارزميات والخلفية
أوراق غش 1337skills ذات الصلة
قراءة إضافية