иногда я создаю новую сложную среду, где моделям действительно трудно, а затем начинаю обучение RL с разумной конфигурацией по умолчанию, и я думаю: "эта среда действительно сложная, не знаю, сработает ли это", но это просто срабатывает. вознаграждение растет. результаты выглядят прекрасно.