Salta ai contenuti

Fine-Tuning per rinforzo per agenti nel 2026: GRPO con ART, verl e OpenRLHF

· 13 min read · default
llmreinforcement-learningfine-tuningaiagentsgrpo

Per due anni la storia della personalizzazione dei modelli di linguaggio di grandi dimensioni è stata una storia di fine-tuning supervisionato. Hai raccolto esempi di buon comportamento, hai eseguito LoRA o un fine-tuning completo, e il modello ha imparato ad imitarli. Questo approccio è maturo, economico e ben compreso — e per una classe crescente di problemi, non è sufficiente. Quando ciò a cui tieni è un risultato piuttosto che uno stile — l'agente ha risolto il ticket, la sequenza di strumenti multi-step ha effettivamente recuperato la risposta giusta, la negoziazione ha raggiunto un accordo — l'imitazione raggiunge un limite. Non puoi raccogliere esempi supervisionati dell'azione ottimale ad ogni passaggio di un'interazione lunga e ramificata, perché non sai quale fosse l'azione ottimale. Quello che puoi fare è lasciare che l'agente agisca, assegna un punteggio al risultato, e spingilo verso ciò che ha prodotto il punteggio più alto. Questo è l'apprendimento per rinforzo, e nel 2026 è diventato una tecnica pratica e accessibile per addestrare agenti piuttosto che una ricerca esotica.

Lo spostamento è stato guidato in gran parte da un algoritmo e un'ondata di strumenti attorno ad esso. GRPO (Group Relative Policy Optimization) ha eliminato gran parte della macchineria che rendeva il classico RLHF doloroso, e una serie di framework open-source — ART, verl, e OpenRLHF — lo ha reso eseguibile senza l'infrastruttura di un laboratorio di ricerca. Questa guida spiega come funziona effettivamente il fine-tuning per rinforzo per gli agenti nel 2026, confronta i tre framework che la maggior parte dei team raggiunge, e offre orientamenti concreti sul design dei reward e quando il RL vale la pena.

Perché il fine-tuning supervisionato esaurisce la strada

Il fine-tuning supervisionato (SFT) è, nel suo cuore, imitazione token-per-token. Mostri al modello coppie input-output e impara la distribuzione condizionale degli output. Per compiti in cui il buon comportamento è ben catturato da esempi — abbinare un tono, seguire un formato, rispondere a domande di dominio — funziona meravigliosamente e dovrebbe rimanere la tua prima mossa. È più economico, più stabile e più facile da debugare di qualsiasi cosa coinvolga il RL.

Il limite appare quando il buon comportamento è definito da un risultato che si svolge su molti step. Considera un agente che risponde alle domande cercando documenti interni: emette una query, legge i risultati, decide se cercare di nuovo, e infine compone una risposta. Il segnale di qualità che hai effettivamente è se la risposta finale era corretta. Non hai un'etichetta "query corretta da emettere al passaggio uno dato questo contesto parziale," perché la query giusta dipende da ciò che torna indietro, che dipende dal document store, che cambia. L'SFT può insegnare all'agente di imitare poche tracce che hai registrato, ma non può insegnargli di ottimizzare il risultato end-to-end nell'enorme spazio delle possibili interazioni. L'agente overfits alla forma superficiale dei tuoi esempi invece di imparare l'obiettivo sottostante.

L'apprendimento per rinforzo inverte la configurazione. Invece di dimostrare l'azione giusta, lasci che l'agente intraprenda le proprie azioni, osserva il risultato, assegna un reward, e aggiusta la policy per rendere il comportamento ad alto reward più probabile. L'agente esplora, e il reward — non una trascrizione fissa — definisce il successo. Questo è esattamente il regime in cui vivono gli agenti multi-step che utilizzano strumenti, motivo per cui il RL è diventato la tecnica di scelta per spingere gli agenti oltre quello che il solo SFT può raggiungere.

GRPO: l'algoritmo che ha reso questo pratico

La ragione per cui il RL per gli LLM è sembrato irraggiungibile per così tanto tempo era PPO, l'algoritmo workhorse dietro il RLHF originale. PPO è potente ma operativamente pesante: richiede l'addestramento e il servizio di un modello di valore separato (critico) insieme alla policy, raddoppiando approssimativamente la memoria e aggiungendo un secondo modello da sintonizzare e mantenere stabile. Per la maggior parte dei team, quel overhead era proibitivo.

L'insight chiave di GRPO è che puoi stimare quanto era buona un'azione senza una funzione di valore appresa, confrontando diversi risposte campionate allo stesso prompt l'una con l'altra. Generi un gruppo di completamenti, li valuti tutti, e usi il punteggio medio del gruppo come baseline. Un completamento che batte la media del gruppo ottiene un vantaggio positivo; uno che scende sotto ottiene uno negativo. La ranking relativa all'interno del gruppo sostituisce la stima di valore assoluta che il critico di PPO ha fornito. Nessun modello critico, molta meno memoria, e un loop di addestramento che è drammaticamente più semplice da ragionare.

Ecco perché quasi ogni framework di RL di agenti nel 2026 si concentra su GRPO. Ha fatto la differenza tra "hai bisogno di un team ML dedicato e di un cluster" e "puoi eseguire questo su una singola GPU capace con una quantità sana di codice." I framework sottostanti sono, in gran parte, opinioni diverse su come avvolgere GRPO in infrastrutture usabili.

ART: apprendimento per rinforzo che vive nel tuo codice

ART (Agent Reinforcement Trainer) da OpenPipe adotta la posizione più amichevole agli agenti dei tre. La sua scelta di design distintiva è una split tra un client e un backend. Il client esegue i rollout del tuo agente — i veri episodi in cui l'agente agisce — all'interno del tuo codice di applicazione, parlando al modello attraverso un endpoint di chat completamenti standard compatibile con OpenAI. Il backend gestisce i macchinari pesanti: servire il modello per l'inferenza con vLLM e eseguire addestramento GRPO con kernel ottimizzati Unsloth. Le due metà possono eseguire su macchine diverse, quindi la logica del tuo agente può rimanere sul tuo laptop mentre l'addestramento accade su una GPU cloud.

Questa architettura è importante perché significa che scrivi i rollout nello stesso modo in cui scrivi già gli agenti. Chiami il modello, lascialo usare i tools, catturi la traiettoria, e assegni un reward con Python ordinario. ART poi prende gruppi di quelle traiettorie e esegue aggiornamenti GRPO. Non c'è bisogno di riformulare il tuo agente come un ambiente RL speciale; il RL è avvolto attorno al codice che avresti scritto comunque. ART inoltre spedisce un helper chiamato RULER per la valutazione relativa, che utilizza un modello per classificare le traiettorie all'interno di un gruppo quando non hai una metrica pulita — utile per i molti compiti reali in cui "migliore" è giudicabile ma non direttamente misurabile.

ART è il punto di partenza giusto quando il tuo obiettivo è migliorare un agente specifico che hai già costruito, specialmente uno multi-turn che utilizza strumenti, e vuoi mantenere la logica del rollout nel tuo ambiente. Mira alla massima efficienza di addestramento per quel singolo agente, caso di addestramento on-the-job piuttosto che pipeline distribuite sprawling.

verl: throughput e flessibilità della ricerca

verl (Volcano Engine Reinforcement Learning) proviene da una direzione diversa: RL ad alta prestazione e su larga scala per gli LLM. Costruito attorno a Ray per la distribuzione e vLLM per la generazione veloce, verl è ingegnerizzato per il throughput e per la flessibilità che i ricercatori hanno bisogno di sperimentare con algoritmi e schemi di reward. Supporta PPO, GRPO, e una famiglia crescente di varianti, ed è progettato per scalare efficientemente tra molte GPU.

Il compromesso è che verl espone più della macchineria RL. Ottieni il controllo sulla topologia dell'addestramento, i dettagli dell'algoritmo, e i knob di prestazione, ma prendi anche più del carico concettuale. verl brilla per i team che fanno RL serio e intensivo di calcolo — addestrare modelli più grandi, eseguire molti esperimenti, o spingere i confini algoritmici — dove il throughput grezzo e la configurabilità giustificano la configurazione più ripida. È meno di uno strumento "avvolgi il mio agente esistente" e più di una piattaforma di ricerca e scala.

OpenRLHF: RLHF di produzione in scala

OpenRLHF si autodefinisce come un framework RLHF ad alta prestazione e pronto per la produzione, anch'esso costruito su Ray e vLLM, con un design basato su agenti unificato. Implementa un ampio menu di algoritmi — PPO, GRPO, REINFORCE++, RLOO e altri — con i trucchi di ottimizzazione che il pratico RLHF ha bisogno di rimanere stabile in scala. La sua lineage è la pipeline RLHF completa: modellazione dei reward, ottimizzazione delle preferenze, e addestramento della policy su hardware distribuito.

OpenRLHF ha mantenuto il passo con dove il campo sta andando. I rilasci del 2026 hanno aggiunto RL vision-language multi-turn, consentendo ai team di addestrare VLM che ragionano sulle immagini in più step end-to-end — un segnale che il RL dell'agente si sta espandendo oltre il testo nel tool use multimodale. OpenRLHF è la scelta naturale quando hai bisogno di uno stack RLHF maturo e scalabile con un'ampia selezione di algoritmi e sei a tuo agio nel gestire un sistema distribuito per ottenerlo.

Scegliere tra i tre

La decisione traccia la forma del tuo problema e il tuo appetito per l'infrastruttura. Raggiungi ART quando vuoi migliorare un agente specifico che hai già scritto, apprezzi mantenere la logica del rollout nel tuo codice, e preferisci un'architettura split che gira comodamente su hardware modesto. Raggiungi verl quando il throughput e la flessibilità algoritmica dominano — modelli grandi, molti esperimenti, un orientamento verso la ricerca — e puoi assorbire una configurazione più hands-on. Raggiungi OpenRLHF quando hai bisogno di una piattaforma RLHF pronta per la produzione, ampiamente capace in scala, incluso RL multimodale, e hai la capacità operativa di eseguire un sistema distribuito basato su Ray.

Tutti e tre convergono sullo stesso motor room — GRPO per l'algoritmo, vLLM per la generazione veloce — quindi la scelta è meno circa la capacità grezza e più circa il livello di astrazione a cui vuoi lavorare. Un modello mentale utile: ART avvolge il RL attorno al tuo agente, mentre verl e OpenRLHF ti chiedono di portare il tuo agente nella loro piattaforma RL.

Un'immagine concreta del loop di addestramento

Aiuta rendere l'astrazione tangibile. Immagina di addestrare un agente di ricerca di documenti — il tipo che risponde a una domanda cercando una knowledge base interna, leggendo i risultati, e componendo una risposta. Sotto GRPO il loop assomiglia a questo. Per ogni domanda di addestramento campi un gruppo di episodi di agente completi, diciamo otto di loro. Ogni episodio è un full rollout: l'agente emette ricerche, legge risultati, decide se continuare a cercare, e produce una risposta finale. Perché il campionamento è stocastico, i otto episodi differiscono — alcuni trovano il documento giusto velocemente, alcuni si perdono, alcuni rispondono fiduciosamente ma in modo sbagliato.

Poi valuti ogni episodio con la tua funzione di reward, producendo otto numeri. GRPO calcola la media del gruppo e assegna a ogni episodio un vantaggio pari a quanto sopra o sotto la media è atterrato. I due episodi che hanno centrato la risposta ottengono vantaggi positivi; i tre che hanno allucinato ottengono quelli negativi. L'aggiornamento della policy spinge il modello a rendere il comportamento ad alto vantaggio più probabile e il comportamento a basso vantaggio meno probabile — su ogni token di ogni episodio nel gruppo. Ripeti su molte domande e molti step, e l'agente gradualmente sposta l'intera sua strategia verso ciò che guadagna reward: query migliori, sapere quando smettere di cercare, radicando le risposte nel testo recuperato.

Quello che rende questo potente per gli agenti in particolare è che il reward ha solo bisogno di giudicare il risultato finale. Non hai mai dovuto etichettare la query corretta al passaggio uno. L'agente ha scoperto, attraverso il confronto e il rinforzo, che certi modelli di query portano a finali ad alto reward. Questo è quello che l'SFT non può fare, espresso come un loop che puoi effettivamente eseguire. ART struttura questo come gruppi di traiettoria raccolti concorrentemente; verl e OpenRLHF esprimono l'stessa idea attraverso i loro worker di rollout basati su Ray. Il vocabolario differisce, ma il confronto relativo al gruppo nel cuore di GRPO è identico tra tutti e tre.

Aspettative di hardware e costo

Il fine-tuning per rinforzo è più pesante dell'SFT, ed è utile impostare le aspettative prima di iniziare. Il costo dominante è la generazione: ogni step di addestramento richiede il campionamento di interi gruppi di rollout multi-step, e per un agente che utilizza strumenti ogni rollout può coinvolgere diverse chiamate di modello più la latenza degli strumenti stessi. Ecco perché ogni framework serio si appoggia su vLLM — l'inferenza veloce in batch non è una cortesia qui, è la differenza tra un run di addestramento che finisce durante la notte e uno che non finisce affatto.

Per un modello piccolo nella gamma 3–8B con adapter in stile LoRA, una singola GPU moderna del data center è spesso sufficiente per vedere il segnale reale, specialmente con il backend ottimizzato Unsloth di ART, che è sintonizzato proprio per questa efficienza single-GPU. La scalatura a modelli più grandi o gruppi più grandi ti spinge verso le topologie multi-GPU basate su Ray che verl e OpenRLHF sono costruiti per. Una sequenza pratica è di prototipare il reward e il rollout sul più piccolo modello redditizio localmente, confermare che la curva del reward tende verso l'alto su un minuscolo set di dati, e solo allora impegnare le GPU cloud a un run più grande. Il design split client/server che ART promuove è conveniente proprio perché consente al codice di rollout del prototipo di rimanere invariato quando sposti il backend a hardware più grande.

Il design dei reward è il vero lavoro

Indipendentemente dal framework che scegli, il framework non è dove il tuo progetto avrà successo o fallirà. La funzione di reward lo è. L'apprendimento per rinforzo ottimizza esattamente ciò che premi, il che significa che un reward approssimativo ti ottiene un agente che è eccellente nella cosa sbagliata — il fenomeno conosciuto come reward hacking. Alcuni principi aiutano costantemente.

Mantieni i reward limitati e ben scalati. GRPO funziona da vantaggi relativi all'interno di un gruppo, e reward selvaggiamente variabili o illimitati rendono queste stime di vantaggio rumorose e il training instabile. Premia il risultato piuttosto che la formulazione: se valuti come una risposta è formulata, l'agente imparerà a formulare piuttosto che a risolvere. Dove l'assegnazione di credito multi-step è difficile, piccoli reward di shaping per i successi intermedi — una tool call che ha restituito dati utili, un recupero che ha colpito il documento giusto — può aiutare l'agente a scoprire buone strategie senza dittarle. E convalida il tuo reward su una manciata di rollout ispezionati a mano prima di scalare: leggi cosa l'agente ha effettivamente fatto per guadagnare un punteggio alto, e conferma che corrisponde alla tua intenzione. Quasi ogni fallimento di RL rintraccia fino a un reward che ha misurato qualcosa di leggermente diverso da quello che il team intendeva.

Infine, rispetta il costo e l'instabilità che vengono con il RL. È più affamato di calcolo e più capriccioso dell'SFT. Inizia con il più piccolo modello e set di dati che può mostrare segnale, registra le curve di reward e loss ossessivamente (tutti e tre i framework si integrano con Weights & Biases), e scala solo una volta che ti fidi del reward e della tendenza. Il RL è uno strumento potente per il lavoro specifico di ottimizzare i risultati — e uno frustrante se raggiunto prima che l'SFT sia stato esaurito.

Il bottom line

Il fine-tuning per rinforzo è diventato mainstream nel 2026 perché GRPO ha rimosso l'overhead del modello critico che rendeva il pratico RLHF impraticabile, e perché ART, verl e OpenRLHF hanno trasformato l'algoritmo in infrastruttura usabile. Usa SFT per primo; rimane il default più economico e stabile. Accedi al RL quando il successo è un risultato che si svolge su molti step e non può essere catturato dall'imitazione. Scegli ART per avvolgere il RL attorno a un agente che hai già, verl per il throughput e la flessibilità della ricerca, e OpenRLHF per il RLHF scalabile e multi-capace della produzione. Poi spendi la maggior parte del tuo sforzo non sul framework ma sulla funzione di reward — perché nell'apprendimento per rinforzo, ottieni esattamente quello che chiedi.

Riferimenti e risorse

Framework

Algoritmi e background

Cheatsheet correlati 1337skills

Letture ulteriori