Noen ganger lager jeg en ny kompleks miljø hvor modellene virkelig sliter, og så starter jeg RL-trening med en fornuftig standardkonfigurasjon, og jeg tenker «dette miljøet er veldig vanskelig, vet ikke om det vil fungere», men det bare fungerer. Belønningen øker. Utrullingene ser vakre ut.