El panorama del aprendizaje por refuerzo agente para LLMs: una encuesta