W końcu odkryłem @PrimeIntellect Environments Hub! Platforma do dzielenia się środowiskami RL do trenowania/oceny LLM-ów/Agentów, utrzymując wszystko otwarte. Napisałem przewodnik po Environments Hub + Weryfikatorach (@willccbb), od podstaw po oceny i trening GRPO w środowisku sortowania alfabetu @kalomaze. 👇