Durante dois anos a história de customizar grandes modelos de linguagem era uma história sobre fine-tuning supervisionado. Você coletava exemplos de bom comportamento, rodava LoRA ou um fine-tune completo, e o modelo aprendia a imitá-los. Essa abordagem é madura, barata e bem compreendida — e para uma classe crescente de problemas, ela não é suficiente. Quando o que você se importa é um resultado em vez de um estilo — o agente resolveu o ticket, a sequência multi-passo de ferramenta realmente recuperou a resposta certa, a negociação alcançou um acordo — a imitação atinge um limite. Você não pode coletar exemplos supervisionados da ação ótima em cada passo de uma longa interação ramificada, porque você não sabe qual era a ação ótima. O que você pode fazer é deixar o agente agir, marcar o resultado, e empurrá-lo em direção a qualquer coisa que tenha produzido a pontuação mais alta. Isso é aprendizado por reforço, e em 2026 tornou-se uma técnica prática e acessível para treinar agentes em vez de uma busca exótica de pesquisa.
A mudança foi impulsionada em grande parte por um algoritmo e uma onda de ferramentas ao seu redor. GRPO (Group Relative Policy Optimization) eliminou muito da maquinaria que tornou o RLHF clássico doloroso, e um conjunto de frameworks de código aberto — ART, verl, e OpenRLHF — o tornou executável sem a infraestrutura de um laboratório de pesquisa. Este guia explica como fine-tuning com reforço para agentes realmente funciona em 2026, compara os três frameworks que a maioria das equipes recorre, e oferece orientação concreta sobre design de recompensa e quando RL vale a pena.
Por que o fine-tuning supervisionado fica sem estrada
Fine-tuning supervisionado (SFT) é, no seu coração, imitação do próximo token. Você mostra ao modelo pares entrada-saída e ele aprende a distribuição condicional das saídas. Para tarefas onde o bom comportamento é bem capturado por exemplos — combinando um tom, seguindo um formato, respondendo perguntas de domínio — isso funciona lindamente e deve permanecer seu primeiro movimento. É mais barato, mais estável, e mais fácil de debugar do que qualquer coisa envolvendo RL.
O limite aparece quando bom comportamento é definido por um resultado que se desdobra em muitos passos. Considere um agente que responde a perguntas pesquisando documentos internos: ele emite uma consulta, lê resultados, decide se deve pesquisar novamente, e finalmente compõe uma resposta. O sinal de qualidade que você realmente tem é se a resposta final estava correta. Você não tem uma "consulta correta para emitir no passo um dado este contexto parcial" rotulada, porque a consulta correta depende do que volta, que depende da loja de documentos, que muda. SFT pode ensinar ao agente a imitar alguns traços que você registrou, mas não pode ensiná-lo a otimizar o resultado fim-a-fim no enorme espaço de possíveis interações. O agente overfits à forma de superfície de seus exemplos em vez de aprender o objetivo subjacente.
O aprendizado por reforço inverte a configuração. Em vez de demonstrar a ação certa, você deixa o agente tomar suas próprias ações, observar o resultado, atribuir uma recompensa, e ajustar a política para tornar o comportamento de alta recompensa mais provável. O agente explora, e a recompensa — não uma transcrição fixa — define sucesso. Este é exatamente o regime onde agentes multi-passo e que usam ferramentas vivem, e é por isso que RL se tornou a técnica de escolha para empurrar agentes além do que SFT sozinho pode alcançar.
GRPO: o algoritmo que tornou isso prático
A razão pela qual RL para LLMs parecia fora de alcance por tanto tempo era PPO, o algoritmo de trabalho pesado por trás do RLHF original. PPO é poderoso mas operacionalmente pesado: ele requer treinar e servir um modelo de valor (crítico) separado ao lado da política, aproximadamente dobrando a memória e adicionando um segundo modelo para sintonizar e manter estável. Para a maioria das equipes essa sobrecarga era proibitiva.
A ideia-chave do GRPO é que você pode estimar quão boa foi uma ação sem uma função de valor aprendida, comparando várias respostas amostradas para o mesmo prompt uma contra a outra. Você gera um grupo de conclusões, marca-as todas, e usa a pontuação média do grupo como a baseline. Uma conclusão que bate a média do grupo recebe uma vantagem positiva; uma que fica abaixo recebe uma negativa. A classificação relativa dentro do grupo substitui a estimativa de valor absoluta que o crítico do PPO forneceu. Sem modelo crítico, muito menos memória, e um loop de treinamento que é dramaticamente mais simples de raciocinar.
É por isso que quase todo framework agent-RL em 2026 se centra em GRPO. Fez a diferença entre "você precisa de uma equipe de ML dedicada e um cluster" e "você pode rodar isso em uma GPU capaz com uma quantidade sensata de código." Os frameworks abaixo são, em grande parte, opiniões diferentes sobre como envolver GRPO em infraestrutura utilizável.
ART: aprendizado por reforço que vive em seu código
ART (Agent Reinforcement Trainer) da OpenPipe toma a postura mais agent-nativa dos três. Sua escolha de design definidora é uma divisão entre um cliente e um backend. O cliente executa rollouts do seu agente — os episódios reais onde o agente age — dentro de seu próprio código de aplicação, conversando com o modelo através de um endpoint de conclusões de chat compatível com OpenAI padrão. O backend lida com a maquinaria pesada: servindo o modelo para inferência com vLLM e rodando treinamento GRPO com kernels otimizados por Unsloth. Os dois lados podem rodar em máquinas diferentes, então sua lógica de agente pode ficar em seu laptop enquanto o treinamento acontece em uma GPU de nuvem.
Essa arquitetura importa porque significa que você escreve rollouts do mesmo jeito que já escreve agentes. Você chama o modelo, deixa-o usar ferramentas, captura a trajetória, e atribui uma recompensa com Python ordinário. ART então pega grupos daquelas trajetórias e realiza atualizações GRPO. Não há necessidade de reframing seu agente como um ambiente RL especial; o RL é envolvido ao redor do código que você teria escrito de qualquer forma. ART também envia um helper chamado RULER para pontuação relativa, que usa um modelo para classificar trajetórias dentro de um grupo quando você não tem uma métrica numérica limpa — útil para as muitas tarefas reais onde "melhor" é julgável mas não diretamente mensurável.
ART é o ponto de partida certo quando seu objetivo é melhorar um agente específico que você já construiu, especialmente um que é multi-turno e usa ferramentas, e você quer manter a lógica de rollout em seu próprio ambiente. Ele alvo eficiência de treinamento de melhor-em-classe para aquele caso de uso único-agente, treinamento-no-trabalho, em vez de pipelines distribuídos sprawling.
verl: rendimento e flexibilidade de pesquisa
verl (Volcano Engine Reinforcement Learning) vem de uma direção diferente: RL de alto desempenho em larga escala para LLMs. Construído ao redor de Ray para distribuição e vLLM para geração rápida, verl é engenhado para rendimento e para a flexibilidade que pesquisadores precisam para experimentar com algoritmos e esquemas de recompensa. Ele suporta PPO, GRPO, e uma família crescente de variantes, e é projetado para escalar em muitas GPUs eficientemente.
O trade-off é que verl expõe mais da maquinaria RL. Você ganha controle sobre a topologia de treinamento, os detalhes do algoritmo, e os knobs de desempenho, mas você também assume mais da carga conceitual. verl brilha para equipes fazendo RL sério e compute-intensivo — treinando modelos maiores, rodando muitos experimentos, ou empurrando fronteiras algorítmicas — onde rendimento bruto e configurabilidade justificam a configuração mais íngreme. É menos uma ferramenta "envolva meu agente existente" e mais uma plataforma de pesquisa-e-escala.
OpenRLHF: RLHF de produção em escala
OpenRLHF se auto-intitula um framework RLHF de alto desempenho e pronto para produção, também construído em Ray e vLLM, com um design unificado baseado em agentes. Ele implementa um menu amplo de algoritmos — PPO, GRPO, REINFORCE++, RLOO e mais — com os truques de otimização que RLHF prático precisa para permanecer estável em escala. Sua linhagem é o pipeline completo de RLHF: modelagem de recompensa, otimização de preferência, e treinamento de política em hardware distribuído.
OpenRLHF manteve o passo com para onde o campo está indo. Seus lançamentos de 2026 adicionaram RL de linguagem-visão multi-turno, deixando equipes treinar VLMs que raciocinam sobre imagens em múltiplos passos fim a fim — um sinal de que agent RL está se expandindo além de texto para uso de ferramenta multimodal. OpenRLHF é a escolha natural quando você precisa de uma stack RLHF madura e escalável com uma seleção ampla de algoritmos e é confortável operando um sistema distribuído para obtê-lo.
Escolhendo entre os três
A decisão rastreia a forma de seu problema e seu apetite por infraestrutura. Recorra a ART quando você quer melhorar um agente específico que você já escreveu, valora manter a lógica de rollout em seu próprio código, e prefere uma arquitetura dividida que roda confortavelmente em hardware modesto. Recorra a verl quando rendimento e flexibilidade algorítmica dominam — modelos grandes, muitos experimentos, uma inclinação de pesquisa — e você pode absorver uma configuração mais hands-on. Recorra a OpenRLHF quando você precisa de uma plataforma RLHF pronta para produção, amplamente capaz, em escala, incluindo RL multimodal, e você tem a capacidade operacional para rodar um sistema distribuído baseado em Ray.
Todos os três convergem no mesmo motor — GRPO para o algoritmo, vLLM para geração rápida — então a escolha é menos sobre capacidade bruta e mais sobre o nível de abstração que você quer trabalhar. Um modelo mental útil: ART envolve RL ao redor de seu agente, enquanto verl e OpenRLHF pedem que você traga seu agente para sua plataforma RL.
Uma imagem concreta do loop de treinamento
Ajuda tornar a abstração tangível. Imagine treinar um agente de pesquisa de documentos — o tipo que responde a uma pergunta pesquisando uma base de conhecimento interna, lendo resultados, e compondo uma resposta. Sob GRPO o loop se parece com isto. Para cada questão de treinamento você amostra um grupo de episódios completos de agente, digamos oito deles. Cada episódio é um rollout completo: o agente emite pesquisas, lê resultados, decide se deve continuar pesquisando, e produz uma resposta final. Porque amostragem é estocástica, os oito episódios diferem — alguns encontram o documento certo rapidamente, alguns vagueiam, alguns respondem com confiança mas erroneamente.
Você então marca cada episódio com sua função de recompensa, produzindo oito números. GRPO computa a média do grupo e atribui a cada episódio uma vantagem igual a quão longe acima ou abaixo da média aterrissou. Os dois episódios que acertaram a resposta recebem vantagens positivas; os três que alucinaram recebem negativas. A atualização da política instiga o modelo a tornar o comportamento de alta vantagem mais provável e o comportamento de baixa vantagem menos provável — em cada token de cada episódio no grupo. Repita em muitas perguntas e muitos passos, e o agente gradualmente muda toda sua estratégia em direção a qualquer coisa que ganhe recompensa: consultas melhores, saber quando parar de pesquisar, fundar respostas no texto recuperado.
O que torna isso poderoso para agentes especificamente é que a recompensa só tem que julgar o resultado final. Você nunca teve que rotular a consulta correta no passo um. O agente descobriu, através de comparação e reforço, que certos padrões de consulta levam a finais de mais alta recompensa. Esse é o negócio que SFT não pode fazer, expresso como um loop que você pode realmente rodar. ART estrutura isso como grupos de trajetória coletados concorrentemente; verl e OpenRLHF expressam a mesma ideia através de seus workers de rollout baseados em Ray. O vocabulário difere, mas a comparação relativa ao grupo no coração de GRPO é idêntica em todos os três.
Expectativas de hardware e custo
Fine-tuning com reforço é mais pesado do que SFT, e vale a pena definir expectativas antes de começar. O custo dominante é geração: cada passo de treinamento requer amostragem de grupos inteiros de rollouts multi-passo, e para um agente que usa ferramentas cada rollout pode envolver várias chamadas de modelo mais a latência das próprias ferramentas. É por isso que todo framework sério se apoia em vLLM — inferência em lote rápida não é uma gentileza aqui, é a diferença entre um run de treinamento que termina durante a noite e um que não termina de todo.
Para um modelo pequeno na faixa de 3–8B com adaptadores estilo LoRA, uma GPU moderna única de data-center é frequentemente suficiente para ver sinal real, especialmente com o backend otimizado por Unsloth do ART, que é sintonizado para exatamente essa eficiência single-GPU. Escalar para modelos maiores ou tamanhos de grupo maiores o empurra em direção às topologias multi-GPU baseadas em Ray que verl e OpenRLHF são construídos. Uma sequência prática é prototipar a recompensa e o rollout no menor modelo viável localmente, confirmar que a curva de recompensa tende para cima em um conjunto de dados minúsculo, e apenas então comprometer GPUs de nuvem a um run maior. O design cliente/servidor dividido que ART promove é conveniente precisamente porque permite que o código de rollout de protótipo permaneça inalterado quando você move o backend para hardware maior.
Design de recompensa é o trabalho real
Qualquer framework que você escolha, o framework não é onde seu projeto terá sucesso ou fracassará. A função de recompensa é. O aprendizado por reforço otimiza exatamente o que você recompensa, o que significa que uma recompensa desleixada consegue um agente que é excelente na coisa errada — o fenômeno conhecido como reward hacking. Alguns princípios consistentemente ajudam.
Mantenha recompensas limitadas e bem escaladas. GRPO funciona a partir de vantagens relativas dentro de um grupo, e recompensas variando selvagemente ou ilimitadas tornam aquelas estimativas de vantagem barulhentas e treinamento instável. Recompense o resultado em vez da redação: se você marca como uma resposta é redigida, o agente aprenderá a redigir em vez de resolver. Onde a atribuição de crédito multi-passo é difícil, pequenas recompensas de shaping para sucessos intermediários — uma chamada de ferramenta que retornou dados úteis, uma recuperação que acertou o documento certo — podem ajudar o agente a descobrir boas estratégias sem ditá-las. E valide sua recompensa em alguns rollouts inspecionados à mão antes de escalar: leia o que o agente realmente fez para ganhar uma pontuação alta, e confirme que combina sua intenção. Quase todo fracasso RL é rastreado até uma recompensa que mediu algo sutilmente diferente do que a equipe quis.
Finalmente, respeite o custo e instabilidade que vêm com RL. É mais compute-hungry e mais caprichoso do que SFT. Comece com o menor modelo e dataset que pode mostrar sinal, registre curvas de recompensa e perda obsessivamente (todos os três frameworks se integram com Weights & Biases), e apenas escale uma vez que você confia na recompensa e na tendência. RL é uma ferramenta poderosa para o trabalho específico de otimizar resultados — e uma frustrante se buscada antes que SFT tenha sido esgotada.
A linha de fundo
Fine-tuning com reforço cruzou para o mainstream em 2026 porque GRPO removeu a sobrecarga de modelo crítico que tornou RLHF impraticável, e porque ART, verl e OpenRLHF transformaram o algoritmo em infraestrutura utilizável. Use SFT primeiro; permanece o padrão mais barato e mais estável. Recorra a RL quando sucesso é um resultado que se desdobra em muitos passos e não pode ser capturado por imitação. Escolha ART para envolver RL ao redor de um agente que você já tem, verl para rendimento e flexibilidade de pesquisa, e OpenRLHF para RLHF escalável e multi-capaz de produção. Então gaste a maior parte de seu esforço não no framework mas na função de recompensa — porque em aprendizado por reforço, você consegue exatamente o que pede.
Referências e Recursos
Frameworks
- ART (Agent Reinforcement Trainer) — GitHub e o launch post
- verl — GitHub
- OpenRLHF — GitHub
- vLLM e Unsloth (backends de inferência + treinamento)
Algoritmos e background
Cheatsheets relacionadas 1337skills
Leitura adicional