2026年エージェント向けの強化学習ファインチューニング：GRPO with ART、verl、OpenRLHF

2年間、大規模言語モデルをカスタマイズするという物語は、教師あり学習についての物語でした。良い行動の例を収集し、LoRAまたはフルファインチューニングを実行すると、モデルは模倣することを学びます。そのアプローチは成熟しており、安価で、よく理解されています — そして、成長している問題のクラスについては、それで十分ではありません。気にしているのがスタイルではなく結果である場合 — エージェントはチケットを解決したのか、マルチステップツールシーケンスは実際に正しい答えを取得したのか、交渉は取引に達したのか — 模倣は限界に達します。長い、分岐した相互作用のあらゆるステップで最適な行動を取っている有教師の例を収集することはできません。その理由は、最適なアクションが何だったかわかっていないからです。できることは、エージェントに行動させ、結果をスコアリングし、より高いスコアをもたらした方に向けて推す — それが強化学習です。2026年には、エージェント向けトレーニングの実用的でアクセス可能な技術になり、異国的な研究の追求ではなくなりました。

シフトは、1つのアルゴリズムと、それを中心とした大量のツール化によって大きく推進されてきました。GRPO（Group Relative Policy Optimization）は、古典的なRLHFを苦しくした多くの機械を削ぎ落とし、オープンソースフレームワークのセット — ART、verl、およびOpenRLHF — がそれを研究所のインフラなしで実行可能にしました。このガイドでは、強化学習によるファインチューニングが2026年でどのように実際に機能するのかを説明し、ほとんどのチームが使用する3つのフレームワークを比較し、報酬設計と RL が価値があるときについての具体的なガイダンスを提供します。

教師あり学習が道を外れる理由

教師あり学習（SFT）は、本質的には、次のトークン模倣です。入出力ペアのモデルを表示すると、出力の条件付き分布が学習されます。良い行動が例によってよく捉えられるタスク（トーンの一致、フォーマットの追従、ドメイン質問への回答）の場合、これは美しく機能し、RLを含むものより前に最初の移動のままですべきです。より安定して、RLを含むものより簡単にデバッグできます。

限界は、良い行動が多くのステップにわたって展開する結果によって定義される場合に現れます。内部ドキュメントを検索することで質問に答えるエージェントを考えてみてください。クエリを発行し、結果を読み、再度検索するかどうかを決定し、最終的に答えを作成します。実際に持っている品質信号は、最終的な答えが正しかったかどうかです。このラベル「この部分的なコンテキストが与えられた場合にステップ1で発行する正しいクエリ」がありません。その理由は、正しいクエリが戻ってくるもの、ドキュメントストアに変わる、に依存しているからです。SFTは、記録された数回のトレースを模倣することをエージェントに教えることができますが、可能な相互作用の膨大な空間全体でエンドツーエンド結果を最適化することはできません。エージェントは、基本的な目的を学ぶ代わりに、例の表面形式にオーバーフィットしています。

強化学習はセットアップを反転します。正しいアクションを示す代わりに、エージェントに独自のアクションを取らせ、結果を観察し、報酬を割り当て、高報酬行動の可能性を高めるようにポリシーを調整します。エージェントは探索し、報酬 — 固定トランスクリプトではなく — 成功を定義します。これは、マルチステップ、ツール使用エージェントが住んでいるまさに体制であり、これが RL がエージェントを SFT だけで達成できるものを超えて押しやるための技術の選択肢になった理由です。

GRPO：これを実用的にしたアルゴリズム

RL for LLM がずっと手の届かないように感じた理由はPPO、元の RLHF の力士アルゴリズムでした。PPO は強力ですが、操作上は重いです。メモリを大体 2 倍に増やし、チューニングして安定させることを保つための2番目のモデルを追加しながら、ポリシーと一緒にトレーニングと提供を行う別の値（クリティック）モデルが必要です。ほとんどのチームにとって、そのオーバーヘッドは禁止されていました。

GRPOの重要な洞察は、学習された値関数なしで、同じプロンプトに対するいくつかのサンプリングされた応答を互いに比較することにより、アクション*がどれほど良かったかを推定できるということです。完了のグループを生成し、すべてをスコアリングし、グループの平均スコアをベースラインとして使用します。グループ平均を上回る完了は正の利点を取得します。1つが下回るものはネガティブを取得します。グループ内の相対的なランキングは、PPOのクリティックが提供した絶対値推定値に置き換えります。クリティックモデルはなく、はるかに少ないメモリ、および劇的にシンプルな推論トレーニングループ。

これが、2026年のほぼすべてのエージェント-RLフレームワークがGRPOを中心としている理由です。それは「専用のMLチームとクラスターが必要」と「健全な量のコードで単一の有能なGPUでこれを実行できます」の間の違いを生みました。以下のフレームワークは、大部分が、GRPO を使用可能なインフラストラクチャにラップする方法についての異なる意見です。

ART：コード内で生きる強化学習

ART（Agent Reinforcement Trainer）からOpenPipeは3つの中で最もエージェント-ネイティブなスタンスを取ります。その定義的な設計の選択はクライアントとバックエンドの間の分割です。クライアントは独自のコード内でエージェントのロールアウト — エージェントが行動する実際のエピソード — を実行し、標準OpenAI互換チャット完了エンドポイントを通じてモデルに話しかけます。バックエンドは重い機械を処理します：vLLMで推論を提供し、Unslothで最適化されたカーネルを使用してGRPOトレーニングを実行します。2つの半分は異なるマシンで実行できるため、エージェントロジックはラップトップに留まりながら、トレーニングはクラウドGPUで発生します。

このアーキテクチャは重要です。なぜなら、既に書いているのと同じ方法でロールアウトを書くことができるからです。モデルを呼び出し、ツールを使用させ、軌跡をキャプチャし、通常のPythonで報酬を割り当てます。ARTは、その後、グループの軌跡を取得し、GRPOアップデートを実行します。エージェントを特別なRL環境として再フレーミングする必要はありません。RLは、とにかく書いていたコードの周囲にラップされています。ARTはまた、RULER と呼ばれるヘルパーを搭載しており、クリーンな数値メトリックがない場合にグループ内の軌跡をランク付けするためにモデルを使用します — 「より良い」は判断可能ですが、直接測定可能ではない多くの実際のタスクに役立ちます。

ART は、構築済みの特定のエージェントを改善することが目標であり、特にマルチターン、ツール使用エージェントであり、ロールアウトロジックを独自の環境に保ちたい場合に正しい出発点です。単一エージェント、オンザジョブトレーニングユースケースの最高クラスのトレーニング効率をターゲットとしており、スプローリング分散パイプラインではなく。

verl：スループットと研究の柔軟性

verl（Volcano Engine Reinforcement Learning）は異なる方向から来ています：LLM向けの高性能、大規模 RL。Ray配信用とvLLM高速生成用に構築された verl は、スループットと研究者が実験したいアルゴリズムと報酬スキームを柔軟に必要とするために設計されています。PPO、GRPO、および増殖の変動ファミリーをサポートしており、多くのGPU全体で効率的にスケールするように設計されています。

トレードオフは、verl が RL 機械をより多く公開することです。トレーニングトポロジー、アルゴリズムの詳細、およびパフォーマンスノブを制御できますが、概念的負荷をもっと引き受けます。verl は、大規模でコンピュートが多い RL —をしている真剣なチームのために輝きます— より大きなモデルのトレーニング、多くの実験の実行、またはアルゴリズムの境界線での推進 — 生のスループットと設定可能性が急勾配な設定を正当化する場所。既存のエージェントを「ラップマイ」ツールではなく、研究とスケールプラットフォームです。

OpenRLHF：スケーリング時の本番RLHF

OpenRLHFは、高性能でプロダクションレディなRLHFフレームワークとして自らを請求しており、Ray と vLLM も構築されており、統合エージェント設計を備えています。広範なアルゴリズムメニューを実装しています — PPO、GRPO、REINFORCE++、RLOOなど — 実用的なRLHFが規模で安定したままであるニーズとする最適化トリック。その線図は完全なRLHFパイプラインです。報酬モデリング、設定最適化、分散ハードウェア全体のポリシートレーニング。

OpenRLHF はフィールドがどこに向かっているかに対応を続けています。2026年のリリースは複数ターンビジョン言語RL を追加し、チームVLMが複数のステップにわたるエンドツーエンドの画像を推論するようにしました — エージェント RL がテキストを超えてマルチモーダルツール使用に拡張されることを示唆する信号。OpenRLHF は、成熟したスケーラブルな RLHF スタック、広範なアルゴリズム選択が必要な場合の自然な選択であり、分散システムの運用に満足しています。

3つの中から選択

決定は問題の形状とインフラストラクチャのための欲望を追跡します。既に書いたエージェントを改善したい場合は、ARTに到達します。ロールアウトロジックを独自のコードに保つことを値と、分散ハードウェア上で快適に実行される分割アーキテクチャを好みます。スループットとアルゴリズムの柔軟性が支配する場合はverlに到達します — 大規模モデル、多くの実験、研究ベント — とより実践的なセットアップを吸収できます。本番対応でスケーリング可能で、広くCapable なRLHFプラットフォーム、マルチモーダル RLを含む必要がある場合は OpenRLHF に到達し、Ray ベースの分散システムを実行するオペレーショナルキャパシティを持っています。

3つすべて同じエンジンルームに収束します — アルゴリズムのGRPO、高速生成のためのvLLM — そのため、選択は生のCapabilityについてではなく、あなたが働きたいAbstractLevel についてより少ないものです。有用なメンタルモデルは次の通りです：ART がエージェントの周囲のRLをラップしながら、verl と OpenRLHF は独自の RL プラットフォームにエージェントを持ってきます。

トレーニングループの具体的な画像

抽象化を具体化するのに役立ちます。ドキュメント研究エージェント — 内部知識ベースを検索して質問に答える、結果を読み、答えを作成するという種類 — をトレーニングしていると想像してください。GRPO の下では、ループは次のようになります。各トレーニング質問について、完全なエージェントエピソード、8つのグループをサンプリングします。各エピソードは完全なロールアウトです。エージェントは検索を発行し、結果を読み、検索を続けるかどうかを決定し、最終的な答えを生成します。サンプリングはstochasticであるため、8つのエピソードは異なり — いくつかは正しいドキュメントをすばやく見つけ、いくつかはさまよう、いくつかは自信を持って答えていますが間違ってます。

次に、報酬関数で各エピソードをスコアリングし、8つの数字を生成します。GRPOはグループの平均を計算し、各エピソードに利点を割り当てます。これはどれほど上またはそれより下に着陸したかに等しくなります。答えを釘付けにした2つのエピソードは正の利点を取得します。3つが幻想した3つは負の利点を取得します。ポリシー更新は、高利点行動の可能性を高めるようモデルに合わせます。低利点行動をより少ない可能性 — グループ内のすべてのエピソードのすべてのトークン全体。多くの質問と多くのステップで繰り返し、エージェント段階的に全体戦略を、報酬を獲得するもの：より良いクエリ、検索をいつ停止するかを知っているか、取得されたテキストに基づく答え。

エージェント向けに特に強力にするのは、報酬は最終的な結果のみをジャッジする必要があるということです。ステップ1で正しいクエリのラベルを付ける必要がありません。エージェントは、特定のクエリパターンが比較と強化を通じて高報酬終了につながることを発見しました。それは SFT ができないことであり、実際に実行できるループとして表現されます。ART はこれを同時実行で収集された軌跡グループとしてstructures します。verl と OpenRLHF は、Ray ベースのロールアウトワーカーを通じて同じアイデアを表現します。ボキャブラリーは異なりますが、GRPO の心臓のグループ相対比較は 3つ全体で同じです。

ハードウェアとコスト予想

強化学習によるファインチューニングはSFTより重く、開始前に期待値を設定する価値があります。支配的なコストは生成です：すべてのトレーニングステップには、マルチステップロールアウトの全体グループをサンプリングが必要で、ツール使用エージェント各ロールアウトについて、複数のモデル呼び出しとツール自体のレイテンシが含まれる場合があります。これが、すべてのまじめなフレームワークが vLLM に頼っている理由です — 高速バッチ推論はここではnicety ではありません、それは夜を通して終わるトレーニング実行と完了しないものとの違いです。

3-8Bの小さなモデルの場合、LoRA スタイルアダプターを使用するとき、特にART's Unsloth-optimized バックエンドに対して、単一の最新データセンターGPUが実信号を表示するのに十分な場合が多いです。より大きなモデルまたはより大きなグループサイズへのスケーリングは、verl と OpenRLHF が組み込まれている複数GPU、Ray ベースのトポロジに向かいます。実用的なシーケンスは、最小限の実行可能なモデルのロールアウトで報酬とロールアウトを実装することです。小さなデータセット上の報酬曲線傾向を確認し、より大きな実行にクラウドGPUをコミットする前にのみ。ART を推進する分割クライアント/サーバー設計は、バックエンドを大きなハードウェアに移動するときにプロトタイプロールアウトコードが変わらないままであるため、正確にはプロトタイプロールアウトコードが変わらないままです。

報酬設計は本当の仕事です

どのフレームワークを選択するか、フレームワークがプロジェクトが成功または失敗する場所ではありません。報酬関数です。強化学習は正確に報酬するものを最適化します。つまり、緩い報酬があると、エージェント報酬ハッキングとして知られる現象について — 間違ったもので優れています。いくつかの原則は一貫して役に立ちます。

報酬を境界内で十分にスケール化されたままにしてください。GRPOはグループ内の相対利点から機能しており、ワイルド相応の報酬やアンバウンドされた報酬は、これらの利点推定をノイズとトレーニングの不安定性を作ります。言葉遣いではなく結果に報酬を与えてください：答えが言われている方法をスコアリングする場合、エージェントは言葉遣いではなく言葉遣いに学びます。マルチステップクレジット割り当てが難しい場合、中間成功のための小さなシェイピング報酬 — 有用なデータを返すツール呼び出し、正しいドキュメントをヒットする取得 — エージェントが良い戦略を指定せずに発見するのに役立ちます。ハンド検査された数個のロールアウト検査の前に報酬を検証してください。エージェントが実際に高スコアを獲得するために何をしたかを読み、それがあなたの意図に一致することを確認してください。ほぼすべてのRL失敗は、チームが意図したものから微妙に異なるものを測定した報酬まで遡ります。

最後に、RLに付随するコストと不安定性を尊重してください。より計算量が多く、SFT より気難しいです。最も小さなモデルとデータセットで開始して信号をスケーリングし、報酬と損失曲線に執着してログ（すべて3つのフレームワークはWeights & Biasesと統合します）し、スケールするまで RL に信頼できます。RL は、最適化結果という特定の仕事を強力なツールです — スケーリング前に SFT が使い果たされている場合、その前に到達すると、イライラするツールです。

底線

強化学習によるファインチューニングは、2026年に主流を横断しました。GRPOがRLHFを不実用的にした批判モデルオーバーヘッドを削除し、ART、verl、OpenRLHF がアルゴリズムを使用可能なインフラストラクチャに変わったため。SFTをまず使用します。より安価で、より安定したデフォルトのままです。RL に向かうときの成功は、多くのステップにわたって展開され、模倣で捕捉できない結果です。既に持っているエージェントの周囲のRL をラップするART を選び、スループットと研究の柔軟性用 verl、スケーラブルでマルチキャプ本番RLHFの OpenRLHF。その後、フレームワークではなく、報酬関数 — 強化学習では、正確に何を求めているかを取得します。

参考文献とリソース

フレームワーク

ART（Agent Reinforcement Trainer）— GitHubおよびlaunch post
verl — GitHub
OpenRLHF — GitHub
vLLMおよびUnsloth（推論+トレーニングバックエンド）

アルゴリズムと背景

関連する 1337skills チートシート

ART cheatsheet、vLLM、Unsloth
TRL、Axolotl、Weights & Biases

さらに詳しく知るには

2026年でLLMをどのように微調整するか — Daily Dose of DS