O Cenário da Aprendizagem por Reforço Agential para LLMs: Uma Pesquisa