DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

MIT ha appena pubblicato un documento che spiega silenziosamente perché il ragionamento degli LLM incontra un ostacolo e come superarlo. La storia abituale è che i modelli falliscono su problemi difficili perché mancano di scala, dati o intelligenza. Questo documento sostiene qualcosa di molto più strutturale: i modelli smettono di migliorare perché il segnale di apprendimento scompare. Una volta che un compito diventa troppo difficile, i tassi di successo crollano verso zero, l'apprendimento per rinforzo non ha nulla da ottimizzare e il ragionamento ristagna. Il fallimento non è cognitivo, è pedagogico. Gli autori propongono un inquadramento semplice ma radicale. Invece di chiedere come far sì che i modelli risolvano problemi più difficili, chiedono come i modelli possano generare problemi che li insegnino. Il loro sistema, SOAR, divide un singolo modello pre-addestrato in due ruoli: uno studente che tenta compiti target estremamente difficili e un insegnante che genera nuovi problemi di addestramento. Il punto è che l'insegnante non viene premiato per produrre domande intelligenti o realistiche. Viene premiato solo se le prestazioni dello studente migliorano su un insieme fisso di problemi di valutazione reali. Nessun miglioramento significa zero ricompensa. Questa incentivazione rimodella tutto. L'insegnante impara a generare problemi intermedi, a tappe, che si trovano appena all'interno del confine di capacità attuale dello studente. Questi problemi non sono versioni semplificate del compito target e, sorprendentemente, non richiedono nemmeno soluzioni corrette. Ciò che conta è che la loro struttura costringe lo studente a praticare il giusto tipo di ragionamento, permettendo al segnale di gradiente di emergere anche quando la supervisione diretta fallisce. I risultati sperimentali rendono il punto dolorosamente chiaro. Su benchmark in cui i modelli partono con zero successi e l'apprendimento per rinforzo standard si appiattisce completamente, SOAR rompe il blocco e migliora costantemente le prestazioni. Il modello sfugge al limite di apprendibilità non pensando di più, ma costruendo un ambiente di apprendimento migliore per se stesso. L'implicazione più profonda è scomoda. Molti presunti "limiti di ragionamento" potrebbero non essere affatto limiti di intelligenza. Sono artefatti di configurazioni di addestramento che assumono che il mondo fornisca problemi apprendibili gratuitamente. Questo documento suggerisce che se i modelli possono plasmare il proprio curriculum, i plateau di ragionamento diventano problemi ingegneristici, non barriere fondamentali. Nessuna nuova architettura, nessun dato umano extra, nessun modello più grande. Solo un cambiamento in ciò che premiamo: il progresso nell'apprendimento invece delle risposte.

Principali

Ranking

Preferiti