Manchmal erstelle ich eine neue komplexe Umgebung, in der Modelle wirklich kämpfen, und beginne dann mit dem RL-Training mit einer sinnvollen Standardkonfiguration, und ich denke mir: "Diese Umgebung ist wirklich schwer, ich weiß nicht, ob es funktionieren wird", aber es funktioniert einfach. Die Belohnung steigt. Die Rollouts sehen wunderschön aus.