Нове опитування щодо навчання за допомогою агентного підкріплення для LLM. LLM RL досі розглядає моделі як генератори послідовностей, оптимізовані у відносно вузьких умовах. Однак справжні агенти діють у відкритих, частково спостережуваних середовищах, де взаємодіють планування, пам'ять, використання інструментів, мислення, самовдосконалення та сприйняття. У цій статті стверджується, що агентний RL слід розглядати як окремий ландшафт. Вона вводить широку таксономію, яка організовує галузь за основними можливостями агентів і доменами додатків, а потім відображає відкриті середовища, бенчмарки та фреймворки, що формують простір. Якщо ви будівельні агенти, це сильна стаття, яку варто ознайомити. Стаття: Навчіться створювати ефективних агентів ШІ в нашій академії: