Aller au contenu

Affinage par Renforcement des Agents en 2026 : GRPO avec ART, verl et OpenRLHF

· 13 min read · default
llmreinforcement-learningfine-tuningaiagentsgrpo

Pendant deux ans, l'histoire de la personnalisation des grands modèles de langage a été l'histoire de l'affinage supervisé. Vous aviez recueilli des exemples de bon comportement, vous aviez exécuté LoRA ou un affinage complet, et le modèle avait appris à les imiter. Cette approche est mûre, bon marché et bien comprise — et pour une classe croissante de problèmes, elle n'est pas suffisante. Quand ce qui vous importe est un résultat plutôt qu'un style — l'agent a-t-il résolu le ticket, la séquence d'outils multi-étapes a-t-elle vraiment récupéré la bonne réponse, la négociation a-t-elle abouti à un accord — l'imitation atteint un plafond. Vous ne pouvez pas recueillir d'exemples supervisés de l'action optimale à chaque étape d'une longue interaction ramifiée, car vous ne savez pas quelle était l'action optimale. Ce que vous pouvez faire, c'est laisser l'agent agir, noter le résultat, et le pousser vers tout ce qui a produit le score le plus élevé. C'est l'apprentissage par renforcement, et en 2026, c'est devenu une technique pratique et accessible pour entraîner les agents plutôt qu'une poursuite de recherche exotique.

Le changement a été largement entraîné par un algorithme et une vague d'outils autour. GRPO (Group Relative Policy Optimization) a supprimé une grande partie de la machinerie qui rendait le RLHF classique douloureux, et un ensemble de frameworks open-source — ART, verl, et OpenRLHF — l'a rendu exécutable sans l'infrastructure d'un laboratoire de recherche. Ce guide explique comment l'affinage par renforcement pour les agents fonctionne réellement en 2026, compare les trois frameworks que la plupart des équipes atteignent, et offre des conseils concrets sur la conception des récompenses et quand l'RL vaut la peine.

Pourquoi l'affinage supervisé atteint son plafond

L'affinage supervisé (SFT) est, à son cœur, l'imitation du jeton suivant. Vous montrez au modèle des paires entrée-sortie et il apprend la distribution conditionnelle des sorties. Pour les tâches où le bon comportement est bien capturé par des exemples — correspondre à un ton, suivre un format, répondre à des questions de domaine — cela fonctionne magnifiquement et devrait rester votre premier mouvement. C'est moins cher, plus stable et plus facile à déboguer que tout ce qui implique l'RL.

Le plafond apparaît quand le bon comportement est défini par un résultat qui se déploie sur plusieurs étapes. Considérez un agent qui répond à des questions en recherchant des documents internes : il émet une requête, lit les résultats, décide s'il doit chercher à nouveau, et enfin compose une réponse. Le signal de qualité que vous avez réellement est si la réponse finale était correcte. Vous n'avez pas une "requête correcte à émettre à l'étape une étant donné ce contexte partiel" étiquetée, car la bonne requête dépend de ce qui revient, qui dépend du magasin de documents, qui change. Le SFT peut enseigner à l'agent d'imiter quelques traces que vous aviez enregistrées, mais il ne peut pas lui enseigner à optimiser le résultat de fin en fin sur l'espace énorme des interactions possibles. L'agent surapprentissage sur la forme de surface de vos exemples au lieu d'apprendre l'objectif sous-jacent.

L'apprentissage par renforcement inverse la configuration. Au lieu de démontrer l'action correcte, vous laissez l'agent prendre ses propres actions, observer le résultat, assigner une récompense, et ajuster la politique pour rendre le comportement à récompense élevée plus probable. L'agent explore, et la récompense — pas une transcription fixe — définit le succès. C'est exactement le régime où vivent les agents multi-étapes utilisant des outils, ce qui explique pourquoi l'RL est devenu la technique de choix pour pousser les agents au-delà de ce que seul le SFT peut atteindre.

GRPO : l'algorithme qui a rendu cela pratique

La raison pour laquelle l'RL pour les LLM semblait hors de portée pendant si longtemps était PPO, l'algorithme de cheval de trait derrière le RLHF original. PPO est puissant mais opérationnellement lourd : il nécessite l'entraînement et le service d'un modèle de valeur (critique) séparé à côté de la politique, doublant à peu près la mémoire et ajoutant un deuxième modèle à ajuster et à garder stable. Pour la plupart des équipes, cette surcharge était prohibitive.

L'idée clé de GRPO est que vous pouvez estimer à quel point une action était bonne sans une fonction de valeur apprise, en comparant plusieurs réponses échantillonnées à la même invite les unes aux autres. Vous générez un groupe de complétions, les évaluez toutes, et utilisez le score moyen du groupe comme référence. Une complétion qui dépasse la moyenne du groupe obtient un avantage positif ; une qui est inférieure en obtient un négatif. Le classement relatif dans le groupe remplace l'estimation de valeur absolue que le critique de PPO fournissait. Pas de modèle critique, beaucoup moins de mémoire, et une boucle d'entraînement qui est dramatiquement plus simple à raisonner.

C'est pourquoi presque chaque framework agent-RL en 2026 centre sur GRPO. Cela a fait la différence entre "vous avez besoin d'une équipe ML dédiée et d'un cluster" et "vous pouvez l'exécuter sur un seul GPU capable avec une quantité sensée de code." Les frameworks ci-dessous sont, en grande partie, différentes opinions sur la façon d'envelopper GRPO dans une infrastructure utilisable.

ART : apprentissage par renforcement qui vit dans votre code

ART (Agent Reinforcement Trainer) par OpenPipe prend la position la plus agentique des trois. Son choix de conception définisseur est une séparation entre un client et un backend. Le client exécute les rollouts de votre agent — les véritables épisodes où l'agent agit — à l'intérieur du code de votre propre application, parlant au modèle via un point de terminaison de complétions de chat standard compatible OpenAI. Le backend gère la machinerie lourde : servir le modèle pour l'inférence avec vLLM et exécuter l'entraînement GRPO avec les noyaux optimisés Unsloth. Les deux moitiés peuvent s'exécuter sur des machines différentes, donc votre logique d'agent peut rester sur votre ordinateur portable tandis que l'entraînement se déroule sur un GPU dans le cloud.

Cette architecture importe car cela signifie que vous écrivez les rollouts de la même manière que vous écrivez déjà les agents. Vous appelez le modèle, le laissez utiliser des outils, capturez la trajectoire, et assignez une récompense avec du Python ordinaire. ART prend alors des groupes de ces trajectoires et effectue des mises à jour GRPO. Il n'est pas nécessaire de reformuler votre agent comme un environnement RL spécial ; l'RL est enveloppé autour du code que vous auriez écrit de toute façon. ART livre également un assistant appelé RULER pour le classement relatif, qui utilise un modèle pour classer les trajectoires dans un groupe quand vous n'avez pas de métrique nette — utile pour les nombreuses tâches réelles où "mieux" est jugeable mais pas directement mesurable.

ART est le point de départ à droite quand votre objectif est d'améliorer un agent spécifique que vous avez déjà construit, en particulier un agent multi-tour utilisant des outils, et vous voulez garder la logique de rollout dans votre propre environnement. Il cible l'efficacité d'entraînement de classe mondiale pour ce cas d'utilisation d'entraînement sur le tas à agent unique plutôt que des pipelines distribués sprawlant.

verl : débit et flexibilité de recherche

verl (Volcano Engine Reinforcement Learning) vient d'une direction différente : RL haute performance et à grande échelle pour les LLM. Construit autour de Ray pour la distribution et vLLM pour la génération rapide, verl est conçu pour le débit et pour la flexibilité que les chercheurs ont besoin d'expérimenter avec les algorithmes et les schémas de récompense. Il supporte PPO, GRPO, et une famille croissante de variantes, et il est conçu pour évoluer efficacement sur plusieurs GPU.

Le compromis est que verl expose plus de machinerie RL. Vous gagnez le contrôle sur la topologie d'entraînement, les détails de l'algorithme, et les boutons de performance, mais vous assumez aussi plus de charge conceptuelle. verl brille pour les équipes faisant du RL sérieux et gourmand en calcul — entraîner des modèles plus grands, exécuter plusieurs expériences, ou pousser les frontières algorithmiques — où le débit brut et la configurabilité justifient la configuration plus raide. C'est moins un outil "envelopper mon agent existant" et plus une plateforme de recherche et d'échelle.

OpenRLHF : RLHF de production à grande échelle

OpenRLHF se présente comme un framework RLHF haute performance et prêt pour la production, également construit sur Ray et vLLM, avec une conception basée sur agent unifié. Il implémente un large menu d'algorithmes — PPO, GRPO, REINFORCE++, RLOO et plus — avec les astuces d'optimisation que le RLHF pratique a besoin pour rester stable à grande échelle. Sa lignée est le pipeline RLHF complet : modélisation des récompenses, optimisation des préférences, et entraînement des politiques sur le matériel distribué.

OpenRLHF a suivi le rythme de la direction du domaine. Ses versions 2026 ont ajouté l'RL vision-langage multi-tour, permettant aux équipes d'entraîner les VLM qui raisonnent sur les images sur plusieurs étapes de fin en fin — un signal que l'RL d'agent s'étend au-delà du texte vers l'utilisation d'outils multimodaux. OpenRLHF est le choix naturel quand vous avez besoin d'une pile RLHF mûre et évolutive avec une large sélection d'algorithmes et êtes à l'aise d'exploiter un système distribué pour l'obtenir.

Choisir parmi les trois

La décision suit la forme de votre problème et votre appétit pour l'infrastructure. Atteignez ART quand vous voulez améliorer un agent spécifique que vous avez déjà écrit, valoriser garder la logique de rollout dans votre propre code, et préférez une architecture partagée qui s'exécute confortablement sur du matériel modeste. Atteignez verl quand le débit et la flexibilité algorithmique dominent — modèles grands, plusieurs expériences, un penchant de recherche — et vous pouvez absorber une configuration plus pratique. Atteignez OpenRLHF quand vous avez besoin d'une plateforme RLHF prête pour la production, largement capable à grande échelle, y compris l'RL multimodal, et vous avez la capacité opérationnelle d'exécuter un système distribué basé sur Ray.

Les trois convergent sur la même salle des moteurs — GRPO pour l'algorithme, vLLM pour la génération rapide — donc le choix est moins une question de capacité brute et plus une question du niveau d'abstraction auquel vous voulez travailler. Un modèle mental utile : ART enveloppe l'RL autour de votre agent, tandis que verl et OpenRLHF vous demandent d'amener votre agent dans leur plateforme RL.

Une image concrète de la boucle d'entraînement

Cela aide à rendre l'abstraction tangible. Imaginez entraîner un agent de recherche de documents — le genre qui répond à une question en recherchant une base de connaissances interne, en lisant les résultats, et en composant une réponse. Sous GRPO, la boucle ressemble à ceci. Pour chaque question d'entraînement, vous échantillonnez un groupe d'épisodes d'agent complets, disons huit d'entre eux. Chaque épisode est un rollout complet : l'agent émet des recherches, lit les résultats, décide s'il doit continuer à chercher, et produit une réponse finale. Parce que l'échantillonnage est stochastique, les huit épisodes diffèrent — certains trouvent le bon document rapidement, certains errent, certains répondent avec confiance mais à tort.

Vous évaluez ensuite chaque épisode avec votre fonction de récompense, produisant huit nombres. GRPO calcule la moyenne du groupe et assigne à chaque épisode un avantage égal à la distance au-dessus ou au-dessous de la moyenne où il a atterri. Les deux épisodes qui ont cloué la réponse obtiennent des avantages positifs ; les trois qui ont hallucé en obtiennent des négatifs. La mise à jour de la politique pousse le modèle à rendre le comportement à haut avantage plus probable et le comportement à bas avantage moins probable — sur chaque jeton de chaque épisode du groupe. Répétez sur plusieurs questions et plusieurs étapes, et l'agent change graduellement toute sa stratégie vers tout ce qui gagne une récompense : meilleures requêtes, sachant quand arrêter la recherche, ancrer les réponses dans le texte récupéré.

Ce qui rend cela puissant pour les agents spécifiquement est que la récompense n'a qu'à juger le résultat final. Vous n'aviez jamais à étiqueter la requête correcte à l'étape une. L'agent a découvert, par comparaison et renforcement, que certains motifs de requête mènent à des fins à récompense élevée. C'est la chose que SFT ne peut pas faire, exprimée comme une boucle que vous pouvez réellement exécuter. ART structure ceci comme des groupes de trajectoire rassemblés de façon concurrente ; verl et OpenRLHF expriment la même idée par leurs ouvriers de rollout basés sur Ray. Le vocabulaire diffère, mais la comparaison groupe-relative au cœur de GRPO est identique sur tous les trois.

Attentes matérielles et de coûts

L'affinage par renforcement est plus lourd que le SFT, et il vaut la peine de fixer les attentes avant de commencer. Le coût dominant est la génération : chaque étape d'entraînement nécessite d'échantillonner des groupes entiers de rollouts multi-étapes, et pour un agent utilisant des outils, chaque rollout peut impliquer plusieurs appels de modèle plus la latence des outils eux-mêmes. C'est pourquoi chaque framework sérieux s'appuie sur vLLM — l'inférence rapide par batch n'est pas une fantaisie ici, c'est la différence entre une exécution d'entraînement qui se termine la nuit et une qui ne se termine pas du tout.

Pour un petit modèle dans la plage 3–8B avec des adaptateurs de style LoRA, un seul GPU moderne du centre de données est souvent suffisant pour voir un vrai signal, en particulier avec le backend optimisé Unsloth d'ART, qui est accordé pour exactement cette efficacité à GPU unique. L'échelle vers des modèles plus grands ou des tailles de groupes plus grandes vous pousse vers les topologies multi-GPU basées sur Ray que verl et OpenRLHF sont construits pour. Une séquence pratique consiste à prototyper la récompense et le rollout sur le plus petit modèle viable localement, confirmer que la courbe de récompense tend vers le haut sur un petit ensemble de données, et seulement alors s'engager les GPU du cloud vers une plus grande exécution. La conception client/serveur partagée qu'ART promeut est pratique précisément car elle laisse le code de rollout de prototype inchangé quand vous déplacez le backend vers du matériel plus grand.

La conception des récompenses est le vrai travail

Quel que soit le framework que vous choisissez, le framework n'est pas où votre projet réussira ou échouera. La fonction de récompense est. L'apprentissage par renforcement optimise exactement ce que vous récompensez, ce qui signifie qu'une récompense négligée vous obtient un agent qui est excellent à la mauvaise chose — le phénomène connu sous le nom d'optimisation de récompense. Quelques principes aident constamment.

Maintenez les récompenses bornées et bien mises à l'échelle. GRPO fonctionne à partir des avantages relatifs dans un groupe, et les récompenses extrêmement variables ou non bornées rendent ces estimations d'avantage bruyantes et l'entraînement instable. Récompensez le résultat plutôt que la formulation : si vous évaluez comment une réponse est formulée, l'agent apprendra à formuler plutôt qu'à résoudre. Où l'attribution du crédit multi-étapes est difficile, les petites récompenses de façonnage pour les succès intermédiaires — un appel d'outil qui a retourné des données utiles, une récupération qui a touché le bon document — peuvent aider l'agent à découvrir de bonnes stratégies sans les dicter. Et validez votre récompense sur une poignée de rollouts inspectés à la main avant d'escalader : lisez ce que l'agent a réellement fait pour gagner un score élevé, et confirmez que c'est en accord avec votre intention. Presque tout échec RL remonte à une récompense qui mesurait quelque chose de subtlement différent de ce que l'équipe voulait dire.

Enfin, respectez le coût et l'instabilité qui accompagnent l'RL. C'est plus gourmand en calcul et plus délicat que le SFT. Commencez avec le plus petit modèle et ensemble de données qui peut montrer un signal, loggez les courbes de récompense et de perte obsessivement (les trois frameworks s'intègrent avec Weights & Biases), et ne montez en échelle que quand vous faites confiance à la récompense et à la tendance. L'RL est un outil puissant pour le travail spécifique d'optimiser les résultats — et un outil frustrant s'il est atteint avant que le SFT ait été épuisé.

Le résultat net

L'affinage par renforcement a franchi le courant dominant en 2026 parce que GRPO a supprimé la surcharge du modèle critique qui rendait le RLHF impratique, et parce qu'ART, verl et OpenRLHF ont transformé l'algorithme en infrastructure utilisable. Utilisez d'abord le SFT ; il reste la défaut moins cher et plus stable. Tournez-vous vers l'RL quand le succès est un résultat qui se déploie sur plusieurs étapes et ne peut pas être capturé par l'imitation. Choisissez ART pour envelopper l'RL autour d'un agent que vous avez déjà, verl pour le débit et la flexibilité de recherche, et OpenRLHF pour le RLHF de production évolutive et multi-capable. Puis dépensez la majorité de votre effort non pas sur le framework mais sur la fonction de récompense — car dans l'apprentissage par renforcement, vous obtenez exactement ce que vous demandez.

Références et Ressources

Frameworks

Algorithmes et contexte

Antisèches 1337skills connexes

Lectures supplémentaires