Nueva encuesta sobre el aprendizaje por refuerzo agente para LLMs. El RL de LLM todavía trata a los modelos como generadores de secuencias optimizados en configuraciones relativamente estrechas. Sin embargo, los agentes reales operan en entornos abiertos y parcialmente observables donde la planificación, la memoria, el uso de herramientas, el razonamiento, la auto-mejora y la percepción interactúan entre sí. Este artículo argumenta que el RL agente debe ser tratado como su propio paisaje. Introduce una amplia taxonomía que organiza el campo a través de las capacidades centrales de los agentes y los dominios de aplicación, y luego mapea los entornos de código abierto, los benchmarks y los marcos que están dando forma al espacio. Si estás construyendo agentes, este es un artículo sólido que vale la pena revisar. Artículo: Aprende a construir agentes de IA efectivos en nuestra academia: