Endelig utforsket @PrimeIntellect miljøsenter! En plattform for å dele RL-miljøer for train/eval-LLM-er/agenter, og holde ting åpne Skrev en gjennomgang på Environments Hub + Verifiers (@willccbb), fra grunnleggende til evals og GRPO-trening på @kalomaze alfabetsorterings-env. 👇
14,79K