非常真實 在某種意義上,所有這些開放模型仍然是概念驗證。這不僅僅是計算能力(雖然這非常重要),還包括投入數世紀的工作在數據、獎勵模型和評估上。"RL 環境"是一個可愛的新花招。規模較小。