Nova pesquisa sobre aprendizagem por reforço agentiva para LLMs. O RL de LLM ainda trata os modelos como geradores de sequência otimizados em configurações relativamente restritas. No entanto, agentes reais operam em ambientes abertos e parcialmente observáveis, onde planejamento, memória, uso de ferramentas, raciocínio, autoaperfeiçoamento e percepção interagem. Este artigo argumenta que o RL agentivo deve ser tratado como seu próprio campo. Ele introduz uma ampla taxonomia que organiza o campo em torno das capacidades centrais dos agentes e domínios de aplicação, e depois mapeia os ambientes de código aberto, benchmarks e estruturas que moldam o espaço. Se você está construindo agentes, este é um artigo forte que vale a pena conferir. Artigo: Aprenda a construir agentes de IA eficazes em nossa academia: