Ландшафт агентного підкріплення навчання для LLM: огляд