ついに @PrimeIntellect Environments Hub を探索しました! トレーニング/評価LLM/エージェントのRL環境を共有し、オープンな状態に保つためのプラットフォーム 環境ハブ+検証ツール(@willccbb)に関するチュートリアルを書きました。 基本から評価まで、@kalomazeのアルファベットソート環境に関するGRPOトレーニング。 👇
15.38K