Terkadang saya akan membuat env kompleks baru di mana model benar-benar kesulitan dan kemudian memulai pelatihan RL dengan konfigurasi default yang masuk akal dan saya seperti "env ini sangat sulit idk jika akan berfungsi" tetapi itu hanya berhasil. hadiah naik. Peluncuran terlihat indah.