a veces crearé un nuevo entorno complejo donde los modelos realmente luchan y luego comenzaré el entrenamiento de RL con una configuración predeterminada sensata y pienso "este entorno es realmente difícil, no sé si funcionará" pero simplemente funciona. la recompensa aumenta. los rollouts se ven hermosos.