Às vezes crio um novo ambiente complexo onde os modelos realmente têm dificuldade e começo o treinamento de RL com uma configuração padrão sensata e eu penso "esse ambiente é muito difícil, não sei se vai funcionar", mas simplesmente funciona. A recompensa aumenta. Os rollouts estão lindos.