有时候我会创建一个新的复杂环境,让模型真的很挣扎,然后用一个合理的默认配置开始强化学习训练,我心想“这个环境真的很难,我不知道是否能成功”,但它就是能成功。奖励上升,回合看起来很美。