a volte creo un nuovo ambiente complesso in cui i modelli faticano davvero e poi inizio l'addestramento RL con una configurazione predefinita sensata e penso "questo ambiente è davvero difficile, non so se funzionerà" ma funziona. il premio aumenta. i rollouts sembrano bellissimi.