soms maak ik een nieuwe complexe omgeving waar modellen echt moeite mee hebben en begin dan met RL-training met een redelijke standaardconfiguratie en dan denk ik: "deze omgeving is echt moeilijk, ik weet niet of het zal werken" maar het werkt gewoon. de beloning gaat omhoog. de rollouts zien er prachtig uit.