终于探索了 @PrimeIntellect Environments Hub! 这是一个分享 RL 环境以训练/评估 LLMs/Agents 的平台,保持开放。 写了一篇关于 Environments Hub + 验证器 (@willccbb) 的指南, 从基础到评估和 @kalomaze 的字母排序环境中的 GRPO 训练。 👇
15.25K