Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Connor Davis

Założyciel @getoutbox_ai Dowiedz się, jak budować agentów AI za DARMOWE 👉 https://t.co/q9zPwlldZ4

MIT właśnie opublikowało artykuł, który cicho wyjaśnia, dlaczego rozumowanie LLM napotyka ścianę i jak ją pokonać. Zwykła historia mówi, że modele zawodzą w trudnych problemach, ponieważ brakuje im skali, danych lub inteligencji. Ten artykuł argumentuje coś znacznie bardziej strukturalnego: modele przestają się rozwijać, ponieważ sygnał uczenia znika. Gdy zadanie staje się zbyt trudne, wskaźniki sukcesu spadają do zera, uczenie przez wzmocnienie nie ma nic do optymalizacji, a rozumowanie stagnuje. Niepowodzenie nie jest kognitywne, lecz pedagogiczne. Autorzy proponują prostą, ale radykalną zmianę perspektywy. Zamiast pytać, jak sprawić, by modele rozwiązywały trudniejsze problemy, pytają, jak modele mogą generować problemy, które je uczą. Ich system, SOAR, dzieli pojedynczy wstępnie wytrenowany model na dwie role: ucznia, który podejmuje się ekstremalnie trudnych zadań docelowych, oraz nauczyciela, który generuje nowe problemy do treningu. Haczyk polega na tym, że nauczyciel nie jest nagradzany za tworzenie sprytnych lub realistycznych pytań. Jest nagradzany tylko wtedy, gdy wydajność ucznia poprawia się w oparciu o stały zestaw rzeczywistych problemów oceniających. Brak poprawy oznacza zerową nagrodę. Ta motywacja przekształca wszystko. Nauczyciel uczy się generować pośrednie, kamieni milowych problemy, które znajdują się tuż w obrębie aktualnych możliwości ucznia. Te problemy nie są uproszczonymi wersjami zadania docelowego, a co zaskakujące, nie wymagają nawet poprawnych rozwiązań. To, co się liczy, to ich struktura, która zmusza ucznia do ćwiczenia właściwego rodzaju rozumowania, pozwalając na pojawienie się sygnału gradientowego, nawet gdy bezpośrednia nadzór zawodzi. Wyniki eksperymentalne jasno to pokazują. W benchmarkach, gdzie modele zaczynają od zera sukcesu, a standardowe uczenie przez wzmocnienie całkowicie się zatrzymuje, SOAR przełamuje impas i stopniowo poprawia wydajność. Model ucieka z krawędzi uczoności nie przez intensywniejsze myślenie, ale przez stworzenie lepszego środowiska uczenia się dla siebie. Głębsza implikacja jest niekomfortowa. Wiele rzekomych „ograniczeń rozumowania” może wcale nie być ograniczeniami inteligencji. Są to artefakty ustawień treningowych, które zakładają, że świat dostarcza problemy do nauki za darmo. Ten artykuł sugeruje, że jeśli modele mogą kształtować swój własny program nauczania, plateau rozumowania stają się problemami inżynieryjnymi, a nie fundamentalnymi barierami. Brak nowych architektur, brak dodatkowych danych ludzkich, brak większych modeli. Tylko zmiana w tym, co nagradzamy: postęp w nauce zamiast odpowiedzi.

Święty Boże... Ten dokument cicho wyjaśnia, dlaczego większość modeli „rozumowania” rozpada się w momencie, gdy odłączysz je od czystych benchmarków i wrzucisz do rzeczywistego świata. Zespół LongCat stawia pytanie, którego dziedzina ciągle unika: jeśli dzisiejsze modele są tak dobre w rozumowaniu, dlaczego wciąż zawodzą w podstawowym zachowaniu agenta, gdy narzędzia zawodzą, instrukcje stają się niejasne lub środowiska stawiają opór? Ich odpowiedź jest niewygodna. Rozumowanie nie zawodzi, ponieważ łańcuchy myśli są zbyt krótkie. Zawodzi, ponieważ trenowaliśmy myślenie bez konsekwencji. Dokument wprowadza LongCat-Flash-Thinking-2601, model Mixture-of-Experts o 560 miliardach parametrów, zbudowany wokół prostej, ale radykalnej idei: rozumowanie staje się wiarygodne tylko wtedy, gdy jest zmuszone do działania, obserwowania porażek i dostosowywania się w rzeczywistych środowiskach. Zamiast traktować rozumowanie jako generowanie tekstu, przedstawiają je jako pętlę: obserwuj → planuj → działaj → uzyskaj informacje zwrotne → popraw. Ta zmiana ma wpływ wszędzie. Dane nie są już statycznymi podpowiedziami. Szkolenie nie jest czystymi trajektoriami. Ocena nie jest jednorazowymi odpowiedziami. Jednym z najważniejszych wkładów jest skalowanie środowiska. Autorzy automatycznie generują ponad 10 000 wykonalnych środowisk w ponad 20 dziedzinach, każde oparte na rzeczywistych narzędziach, rzeczywistych bazach danych i wielu ważnych ścieżkach rozwiązania. Trudność wzrasta strukturalnie, a nie dzięki sprytnym sztuczkom z podpowiedziami. Kluczowe jest to, że nie dezynfekują świata. Awaria narzędzi, niejednoznaczne instrukcje, częściowe wyniki i hałaśliwe informacje zwrotne są celowo wprowadzane. Hałas nie jest błędem. To jest program nauczania. Aby utrzymać stabilność szkolenia na tym poziomie, rozszerzają asynchroniczne RL (DORA), aby radzić sobie z interakcjami długohoryzontowymi i wielokrotnymi z dziesiątkami tysięcy równoczesnych środowisk bez załamania. W czasie wnioskowania wprowadzają Tryb Ciężkiego Myślenia. Zamiast jednego długiego łańcucha myśli, model uruchamia równoległe ścieżki rozumowania, a następnie reflektuje nad nimi przed działaniem. To konsekwentnie przewyższa samokonsystencję w złożonych, agentowych zadaniach. Wyniki mówią głośno. Najlepsza w swojej klasie wydajność w BrowseComp, τ²-Bench i VitaBench. Silne wyniki w matematyce, kodowaniu i wyszukiwaniu. A co najważniejsze, znacznie mniejsze pogorszenie w trudnych warunkach. Prawdziwa lekcja jest ostrzejsza niż jakikolwiek numer benchmarku: Jakość rozumowania nie jest już wąskim gardłem. Generalizacja jest. A generalizacja nie pochodzi z lepszych podpowiedzi ani dłuższych myśli. Pochodzi z środowisk, które stawiają opór. Jeśli chcemy agentów, którzy działają poza demonstracjami, musimy przestać szkolić ich w czystych, wyimaginowanych światach. Inteligencja nie jest kształtowana tam, gdzie wszystko idzie dobrze. Kształtuje się tam, gdzie rzeczy się psują. Dokument: LongCat-Flash-Thinking-2601 Raport Techniczny Przeczytaj pełny dokument tutaj:

Najlepsze

Ranking

Ulubione