Durante dos años la historia de personalización de grandes modelos de lenguaje fue una historia sobre afinamiento supervisado. Recopilabas ejemplos de buen comportamiento, ejecutabas LoRA o afinamiento completo, y el modelo aprendía a imitarlos. Ese enfoque es maduro, barato y bien entendido — y para una clase creciente de problemas, no es suficiente. Cuando lo que te importa es un resultado en lugar de un estilo — ¿resolvió el agente el ticket, la secuencia de herramientas multi-paso realmente recuperó la respuesta correcta, la negociación llegó a un acuerdo — la imitación toca un techo. No puedes recopilar ejemplos supervisados de la acción óptima en cada paso de una interacción larga y ramificada, porque no sabes cuál fue la acción óptima. Lo que sí puedes hacer es dejar que el agente actúe, puntuar el resultado e impulsarlo hacia lo que produjo la puntuación más alta. Eso es aprendizaje por refuerzo, y en 2026 se ha convertido en una técnica práctica y accesible para entrenar agentes en lugar de una búsqueda exótica de investigación.
El cambio ha sido impulsado en gran medida por un algoritmo y una ola de herramientas a su alrededor. GRPO (Group Relative Policy Optimization) eliminó gran parte de la maquinaria que hacía que RLHF clásico fuera doloroso, y un conjunto de marcos de código abierto — ART, verl y OpenRLHF — lo hicieron ejecutable sin la infraestructura de un laboratorio de investigación. Esta guía explica cómo funciona realmente el afinamiento por refuerzo para agentes en 2026, compara los tres marcos que más usan los equipos y ofrece orientación concreta sobre diseño de recompensas y cuándo vale la pena el RL.
Por qué el afinamiento supervisado se queda corto
El afinamiento supervisado (SFT) es, en su esencia, imitación de siguiente-token. Le muestras al modelo pares entrada-salida y aprende la distribución condicional de las salidas. Para tareas donde el buen comportamiento está bien capturado por ejemplos — igualar un tono, seguir un formato, responder preguntas de dominio — esto funciona hermosamente y debe seguir siendo tu primer movimiento. Es más barato, más estable y más fácil de depurar que cualquier cosa que implique RL.
El techo aparece cuando el buen comportamiento se define por un resultado que se desarrolla en muchos pasos. Considera un agente que responde preguntas buscando documentos internos: emite una consulta, lee resultados, decide si buscar de nuevo y finalmente compone una respuesta. La señal de calidad que realmente tienes es si la respuesta final fue correcta. No tienes un "consulta correcta a emitir en el paso uno dada este contexto parcial" etiquetado, porque la consulta correcta depende de lo que regrese, que depende del almacén de documentos, que cambia. SFT puede enseñar al agente a imitar algunos rastreos que registraste, pero no puede enseñarle a optimizar el resultado end-to-end en el enorme espacio de interacciones posibles. El agente se sobreajusta a la forma de superficie de tus ejemplos en lugar de aprender el objetivo subyacente.
El aprendizaje por refuerzo invierte la configuración. En lugar de demostrar la acción correcta, dejas que el agente tome sus propias acciones, observa el resultado, asigna una recompensa y ajusta la política para hacer que el comportamiento de alta recompensa sea más probable. El agente explora, y la recompensa — no una transcripción fija — define el éxito. Este es exactamente el régimen donde viven agentes multi-paso que usan herramientas, por lo que el RL se ha convertido en la técnica elegida para empujar agentes más allá de lo que solo SFT puede alcanzar.
GRPO: el algoritmo que hizo esto práctico
La razón por la que RL para LLMs parecía fuera del alcance durante tanto tiempo fue PPO, el algoritmo de trabajo en RLHF original. PPO es poderoso pero operacionalmente pesado: requiere entrenar y servir un modelo de valor (crítico) separado junto con la política, aproximadamente duplicando la memoria y añadiendo un segundo modelo a sintonizar y mantener estable. Para la mayoría de los equipos esa sobrecarga era prohibitiva.
La idea clave de GRPO es que puedes estimar qué tan buena fue una acción sin una función de valor aprendida, comparando varias respuestas muestreadas a la misma indicación entre sí. Generas un grupo de finalizaciones, las puntúas todas y usas la puntuación promedio del grupo como línea de base. Una finalización que supera el promedio del grupo obtiene una ventaja positiva; una que cae debajo obtiene una negativa. La clasificación relativa dentro del grupo reemplaza la estimación de valor absoluto que el crítico de PPO proporcionaba. Sin modelo crítico, mucha menos memoria, y un bucle de entrenamiento que es dramáticamente más simple de razonar.
Esta es la razón por la que casi cada marco de RL de agentes en 2026 se centra en GRPO. Hizo la diferencia entre "necesitas un equipo de ML dedicado y un clúster" y "puedes ejecutar esto en una GPU singular capaz con una cantidad sensata de código". Los marcos a continuación son, en gran parte, opiniones diferentes sobre cómo envolver GRPO en infraestructura usable.
ART: aprendizaje por refuerzo que vive en tu código
ART (Agent Reinforcement Trainer) de OpenPipe adopta la postura más nativa de agentes de las tres. Su elección de diseño definitoria es una división entre un cliente y un backend. El cliente ejecuta los rollouts del agente — los episodios reales donde el agente actúa — dentro de tu propio código de aplicación, hablando con el modelo a través de un endpoint estándar de completar chat compatible con OpenAI. El backend maneja la maquinaria pesada: servir el modelo para inferencia con vLLM y ejecutar entrenamiento GRPO con kernels optimizados por Unsloth. Las dos mitades pueden ejecutarse en máquinas diferentes, así que tu lógica de agente puede permanecer en tu laptop mientras el entrenamiento sucede en una GPU en la nube.
Esta arquitectura importa porque significa que escribes rollouts de la misma manera que ya escribes agentes. Llamas el modelo, dejas que use herramientas, captura la trayectoria y asigna una recompensa con Python ordinario. ART luego toma grupos de esas trayectorias y realiza actualizaciones GRPO. No hay necesidad de repensar tu agente como un entorno especial de RL; el RL está envuelto alrededor del código que hubieras escrito de todas formas. ART también envía un ayudante llamado RULER para puntuación relativa, que usa un modelo para clasificar trayectorias dentro de un grupo cuando no tienes una métrica numérica clara — útil para las muchas tareas reales donde "mejor" es juzgable pero no directamente medible.
ART es el punto de partida correcto cuando tu objetivo es mejorar un agente específico que ya has construido, especialmente uno multi-turno que usa herramientas, y quieres mantener la lógica de rollout en tu propio entorno. Objetivo para mejor-en-su-clase eficiencia de entrenamiento para ese caso de uso de agente singular en-el-trabajo-entrenamiento en lugar de pipelines distribuidos desordenados.
verl: rendimiento y flexibilidad de investigación
verl (Volcano Engine Reinforcement Learning) viene de una dirección diferente: RL de alto rendimiento a escala grande para LLMs. Construido alrededor de Ray para distribución y vLLM para generación rápida, verl está diseñado para rendimiento y para la flexibilidad que los investigadores necesitan para experimentar con algoritmos y esquemas de recompensa. Soporta PPO, GRPO y una familia creciente de variantes, y está diseñado para escalar a través de muchas GPUs eficientemente.
El trade-off es que verl expone más de la maquinaria de RL. Ganas control sobre la topología de entrenamiento, los detalles del algoritmo y los botones de rendimiento, pero también asumes más de la carga conceptual. verl brilla para equipos haciendo serio RL intensivo en compute — entrenar modelos más grandes, ejecutar muchos experimentos o empujar las fronteras algorítmicas — donde el rendimiento puro y la configurabilidad justifican la configuración más empinada. Es menos una herramienta "envuelvo mi agente existente" y más una plataforma de investigación y escala.
OpenRLHF: RLHF de producción a escala
OpenRLHF se factura a sí misma como un marco RLHF de alto rendimiento y listo para producción, también construido en Ray y vLLM, con un diseño unificado basado en agentes. Implementa un amplio menú de algoritmos — PPO, GRPO, REINFORCE++, RLOO y más — con los trucos de optimización que el RLHF práctico necesita para permanecer estable a escala. Su linaje es el pipeline RLHF completo: modelado de recompensas, optimización de preferencia y entrenamiento de política a través de hardware distribuido.
OpenRLHF se ha mantenido al ritmo de hacia dónde va el campo. Sus lanzamientos de 2026 añadieron RL de visión-lenguaje multi-turno, dejando que equipos entrenen VLMs que razonan sobre imágenes a través de múltiples pasos end a end — una señal de que RL de agentes se está expandiendo más allá de texto hacia uso de herramientas multimodal. OpenRLHF es la opción natural cuando necesitas un stack RLHF maduro y escalable con selección de algoritmo amplio y estás cómodo operando un sistema distribuido para obtenerlo.
Eligiendo entre los tres
La decisión rastrea la forma de tu problema y tu apetito por infraestructura. Opta por ART cuando quieras mejorar un agente específico que ya has escrito, valores mantener la lógica de rollout en tu propio código y prefieres una arquitectura dividida que se ejecute cómodamente en hardware modesto. Opta por verl cuando el rendimiento y la flexibilidad algorítmica dominan — modelos grandes, muchos experimentos, inclinación investigadora — y puedes absorber una configuración más práctica. Opta por OpenRLHF cuando necesites una plataforma RLHF de grado de producción, ampliamente capaz a escala, incluyendo RL multimodal, y tienes la capacidad operacional para ejecutar un sistema distribuido basado en Ray.
Los tres convergen en el mismo motor — GRPO para el algoritmo, vLLM para generación rápida — así que la elección es menos sobre capacidad pura y más sobre el nivel de abstracción en el que quieres trabajar. Un modelo mental útil: ART envuelve RL alrededor de tu agente, mientras que verl y OpenRLHF te piden traer tu agente a su plataforma de RL.
Una imagen concreta del bucle de entrenamiento
Ayuda hacer la abstracción tangible. Imagina entrenar un agente de investigación de documentos — el tipo que responde una pregunta buscando una base de conocimiento interna, leyendo resultados y componiendo una respuesta. Bajo GRPO el bucle se ve así. Para cada pregunta de entrenamiento muestreas un grupo de episodios de agente completos, digamos ocho de ellos. Cada episodio es un rollout completo: el agente emite búsquedas, lee resultados, decide si debe mantener buscando y produce una respuesta final. Porque el muestreo es estocástico, los ocho episodios difieren — algunos encuentran el documento correcto rápidamente, algunos deambulan, algunos responden con confianza pero incorrectamente.
Luego puntúas cada episodio con tu función de recompensa, produciendo ocho números. GRPO calcula el promedio del grupo y asigna a cada episodio una ventaja igual a cuán lejos por encima o por debajo del promedio cayó. Los dos episodios que acertaron la respuesta obtienen ventajas positivas; los tres que alucinaron obtienen negativas. La actualización de política empuja el modelo a hacer que el comportamiento de alta ventaja sea más probable y el comportamiento de baja ventaja menos probable — a través de cada token de cada episodio en el grupo. Repite sobre muchas preguntas y muchos pasos, y el agente gradualmente cambia su estrategia completa hacia lo que gana recompensa: mejores consultas, saber cuándo dejar de buscar, fundar respuestas en texto recuperado.
Lo que hace esto poderoso para agentes específicamente es que la recompensa solo tiene que juzgar el resultado final. Nunca tuviste que etiquetar la consulta correcta en el paso uno. El agente descubrió, a través de comparación y refuerzo, que ciertos patrones de consulta conducen a finales de mayor recompensa. Esa es la cosa que SFT no puede hacer, expresada como un bucle que realmente puedes ejecutar. ART estructura esto como grupos de trayectoria recopilados concurrentemente; verl y OpenRLHF expresan la misma idea a través de sus trabajadores de rollout basados en Ray. El vocabulario difiere, pero la comparación relativa al grupo en el corazón de GRPO es idéntica en los tres.
Expectativas de hardware y costo
El afinamiento por refuerzo es más pesado que SFT, y vale la pena establecer expectativas antes de empezar. El costo dominante es generación: cada paso de entrenamiento requiere muestrear grupos completos de rollouts multi-paso, y para un agente que usa herramientas cada rollout puede implicar varias llamadas de modelo más la latencia de las herramientas mismas. Esta es la razón por la que cada marco serio se apoya en vLLM — inferencia rápida por lotes no es una delicia aquí, es la diferencia entre una ejecución de entrenamiento que termina durante la noche y una que no termina en absoluto.
Para un modelo pequeño en el rango de 3–8B con adaptadores de estilo LoRA, una sola GPU de centro de datos moderna es a menudo suficiente para ver señal real, especialmente con el backend optimizado por Unsloth de ART, que está sintonizado para exactamente esta eficiencia de GPU singular. Escalar a modelos más grandes o tamaños de grupo más grandes te empuja hacia las topologías multi-GPU basadas en Ray que verl y OpenRLHF están construidas para. Una secuencia práctica es prototipo la recompensa y el rollout en el modelo viable más pequeño localmente, confirmar que la curva de recompensa tiende hacia arriba en un conjunto de datos diminuto, y solo entonces comprometer GPUs en la nube a una ejecución más grande. El diseño cliente/servidor dividido que ART promueve es conveniente precisamente porque permite que el código de rollout prototipo permanezca sin cambios cuando mueves el backend a hardware más grande.
El diseño de recompensas es el trabajo real
Sea cual sea el marco que elijas, el marco no es donde tu proyecto tendrá éxito o fracasará. La función de recompensa es. El aprendizaje por refuerzo optimiza exactamente lo que recompensas, lo que significa que una recompensa descuidada te consigue un agente que es excelente en la cosa equivocada — el fenómeno conocido como reward hacking. Algunos principios consistentemente ayudan.
Mantén recompensas acotadas y bien escaladas. GRPO funciona a partir de ventajas relativas dentro de un grupo, y recompensas que varían salvajemente o sin acotar hacen que esas estimaciones de ventaja sean ruidosas y el entrenamiento inestable. Recompensa el resultado en lugar de la redacción: si puntúas cómo se formula una respuesta, el agente aprenderá a formular en lugar de a resolver. Donde la asignación de crédito multi-paso es difícil, pequeñas recompensas de shaping para éxitos intermedios — una llamada de herramienta que devolvió datos útiles, una recuperación que golpeó el documento correcto — pueden ayudar al agente a descubrir buenas estrategias sin dictarlas. Y valida tu recompensa en un puñado de rollouts inspeccionados a mano antes de escalar: lee qué realmente hizo el agente para ganar una puntuación alta, y confirma que coincida con tu intención. Casi cada fracaso de RL se remonta a una recompensa que midió algo sutilmente diferente de lo que el equipo significaba.
Finalmente, respeta el costo e inestabilidad que vienen con RL. Es más intensivo en compute y más caprichoso que SFT. Comienza con el modelo más pequeño y conjunto de datos que puede mostrar señal, registra curvas de recompensa y pérdida obsesivamente (los tres marcos se integran con Weights & Biases), y solo escala una vez que confíes en la recompensa y la tendencia. RL es una herramienta poderosa para el trabajo específico de optimizar resultados — y una frustrante si se alcanza antes de que SFT se haya agotado.
La conclusión
El afinamiento por refuerzo entró en la corriente principal en 2026 porque GRPO eliminó la sobrecarga del modelo crítico que hacía RLHF impracticable, y porque ART, verl y OpenRLHF convirtieron el algoritmo en infraestructura usable. Usa SFT primero; sigue siendo el predeterminado más barato y estable. Recurre al RL cuando el éxito es un resultado que se desarrolla en muchos pasos y no puede ser capturado por imitación. Elige ART para envolver RL alrededor de un agente que ya tienes, verl para rendimiento y flexibilidad de investigación, y OpenRLHF para RLHF escalable y multi-capaz de producción. Luego pasa la mayor parte de tu esfuerzo no en el marco sino en la función de recompensa — porque en aprendizaje por refuerzo, obtienes exactamente lo que pides.
Referencias y Recursos
Marcos
- ART (Agent Reinforcement Trainer) — GitHub y el post de lanzamiento
- verl — GitHub
- OpenRLHF — GitHub
- vLLM y Unsloth (backends de inferencia + entrenamiento)
Algoritmos y trasfondo
- GRPO — Documento DeepSeekMath introduciendo el algoritmo
- Documento Proximal Policy Optimization (PPO)
Guías de referencia relacionadas de 1337skills
Lectura adicional