Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
MIT julkaisi juuri artikkelin, joka hiljaisesti selittää, miksi LLM:n päättely törmää seinään ja miten siitä voi ylittää.
Yleinen tarina on, että mallit epäonnistuvat vaikeissa ongelmissa, koska niiltä puuttuu mittakaava, data tai älykkyys.
Tämä artikkeli esittää jotain paljon rakenteellisempaa: mallit lakkaavat kehittymästä, koska oppimissignaali katoaa. Kun tehtävä muuttuu liian vaikeaksi, onnistumisprosentit romahtavat nollaan, vahvistusoppiminen ei optimoi mitään, ja päättely pysähtyy. Epäonnistuminen ei ole kognitiivista, vaan pedagogista.
Kirjoittajat ehdottavat yksinkertaista mutta radikaalia uudelleenkehystämistä. Sen sijaan, että kysyttäisiin, miten mallit ratkaistaan vaikeampia ongelmia, he kysyvät, miten mallit voivat tuottaa ongelmia, jotka opettavat heitä.
Heidän järjestelmänsä, SOAR, jakaa yhden esikoulutetun mallin kahteen rooliin: oppilaaseen, joka suorittaa erittäin vaikeita tehtäviä, ja opettajaan, joka luo uusia koulutusongelmia. Koukku on siinä, että opettajaa ei palkita älykkäistä tai realistisista kysymyksistä. Sitä palkitaan vain, jos opiskelijan suoriutuminen paranee kiinteässä joukossa todellisia arviointiongelmia. Ei parannusta tarkoittaa nollapalkintoa.
Tuo kannustin muuttaa kaikkea.
Opettaja oppii luomaan keskitasoisia, askelkivitehtäviä, jotka sijoittuvat juuri oppilaan nykyisten kykyrajojen sisäpuolelle. Nämä ongelmat eivät ole yksinkertaistettuja versioita kohdetehtävästä, ja silmiinpistävää kyllä, ne eivät edes vaadi oikeita ratkaisuja.
Tärkeintä on, että niiden rakenne pakottaa opiskelijan harjoittamaan oikeanlaista päättelyä, jolloin gradienttisignaali syntyy, vaikka suora ohjaus epäonnistuisi.
Kokeelliset tulokset tekevät asian tuskallisen selväksi. Testeissä, joissa mallit alkavat nollalla menestyksellä ja tavallinen vahvistusoppiminen on täysin tasaista, SOAR rikkoo pattitilanteen ja parantaa suorituskykyä tasaisesti.
Malli pääsee opittavuuden rajalta irti ei ajattelemalla kovemmin, vaan rakentamalla itselleen paremman oppimisympäristön.
Syvempi vihje on epämiellyttävä. Monet niin sanotut "päättelyn rajat" eivät välttämättä ole älykkyyden rajoja. Ne ovat harjoitusjärjestelmien artefakteja, jotka olettavat, että maailma tarjoaa opittavia ongelmia ilmaiseksi.
Tämä artikkeli ehdottaa, että jos mallit voivat muokata omaa opetussuunnitelmaansa, päättelyn tasot muuttuvat insinööritieteiden ongelmiksi, eivät perustavanlaatuisiksi esteiksi.
Ei uusia arkkitehtuureja, ei ylimääräistä ihmisdataa, ei suurempia malleja. Vain muutos siinä, mitä palkitsemme: oppimisen edistymistä vastausten sijaan.

Johtavat
Rankkaus
Suosikit
