Іноді я створюю нове складне середовище, де моделі справді мають труднощі, а потім починаю тренування RL з розумною стандартною конфігурацією і думаю: «Це середовище дуже складне, не знаю, чи спрацює», але воно просто працює. Винагорода зростати. Презентації виглядають чудово.