Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

MIT właśnie opublikowało artykuł, który cicho wyjaśnia, dlaczego rozumowanie LLM napotyka ścianę i jak ją pokonać. Zwykła historia mówi, że modele zawodzą w trudnych problemach, ponieważ brakuje im skali, danych lub inteligencji. Ten artykuł argumentuje coś znacznie bardziej strukturalnego: modele przestają się rozwijać, ponieważ sygnał uczenia znika. Gdy zadanie staje się zbyt trudne, wskaźniki sukcesu spadają do zera, uczenie przez wzmocnienie nie ma nic do optymalizacji, a rozumowanie stagnuje. Niepowodzenie nie jest kognitywne, lecz pedagogiczne. Autorzy proponują prostą, ale radykalną zmianę perspektywy. Zamiast pytać, jak sprawić, by modele rozwiązywały trudniejsze problemy, pytają, jak modele mogą generować problemy, które je uczą. Ich system, SOAR, dzieli pojedynczy wstępnie wytrenowany model na dwie role: ucznia, który podejmuje się ekstremalnie trudnych zadań docelowych, oraz nauczyciela, który generuje nowe problemy do treningu. Haczyk polega na tym, że nauczyciel nie jest nagradzany za tworzenie sprytnych lub realistycznych pytań. Jest nagradzany tylko wtedy, gdy wydajność ucznia poprawia się w oparciu o stały zestaw rzeczywistych problemów oceniających. Brak poprawy oznacza zerową nagrodę. Ta motywacja przekształca wszystko. Nauczyciel uczy się generować pośrednie, kamieni milowych problemy, które znajdują się tuż w obrębie aktualnych możliwości ucznia. Te problemy nie są uproszczonymi wersjami zadania docelowego, a co zaskakujące, nie wymagają nawet poprawnych rozwiązań. To, co się liczy, to ich struktura, która zmusza ucznia do ćwiczenia właściwego rodzaju rozumowania, pozwalając na pojawienie się sygnału gradientowego, nawet gdy bezpośrednia nadzór zawodzi. Wyniki eksperymentalne jasno to pokazują. W benchmarkach, gdzie modele zaczynają od zera sukcesu, a standardowe uczenie przez wzmocnienie całkowicie się zatrzymuje, SOAR przełamuje impas i stopniowo poprawia wydajność. Model ucieka z krawędzi uczoności nie przez intensywniejsze myślenie, ale przez stworzenie lepszego środowiska uczenia się dla siebie. Głębsza implikacja jest niekomfortowa. Wiele rzekomych „ograniczeń rozumowania” może wcale nie być ograniczeniami inteligencji. Są to artefakty ustawień treningowych, które zakładają, że świat dostarcza problemy do nauki za darmo. Ten artykuł sugeruje, że jeśli modele mogą kształtować swój własny program nauczania, plateau rozumowania stają się problemami inżynieryjnymi, a nie fundamentalnymi barierami. Brak nowych architektur, brak dodatkowych danych ludzkich, brak większych modeli. Tylko zmiana w tym, co nagradzamy: postęp w nauce zamiast odpowiedzi.

Najlepsze

Ranking

Ulubione