もしあなたのRL実験でこれが起きているなら、RLインフラが本当に壊れているとわかり、正しいチェックポイントを取るだけです。