Ibland gör jag en ny komplex miljö där modellerna verkligen har det svårt och börjar sedan RL-träning med en vettig standardkonfiguration och jag tänker "den här miljön är verkligen svår, vet inte om den kommer att fungera" men det bara fungerar. Belöningen ökar. Utrullningarna ser vackra ut.