Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cazzo santo... Questo documento spiega silenziosamente perché la maggior parte dei modelli di “ragionamento” crolla nel momento in cui li si scollega da benchmark puliti e li si getta nel mondo reale.
Il team di LongCat affronta una domanda che il campo continua a evitare: se i modelli di oggi sono così bravi a ragionare, perché falliscono ancora nel comportamento di base degli agenti una volta che gli strumenti si rompono, le istruzioni diventano vaghe o gli ambienti reagiscono?
La loro risposta è scomoda. Il ragionamento non fallisce perché le catene di pensiero sono troppo brevi. Fallisce perché abbiamo addestrato il pensiero senza conseguenze.
Il documento introduce LongCat-Flash-Thinking-2601, un modello Mixture-of-Experts con 560 miliardi di parametri costruito attorno a un'idea semplice ma radicale: il ragionamento diventa affidabile solo quando è costretto ad agire, osservare il fallimento e adattarsi all'interno di ambienti reali.
Invece di trattare il ragionamento come generazione di testo, lo inquadrano come un ciclo:
osserva → pianifica → agisci → ricevi feedback → rivedi.
Quello spostamento si ripercuote ovunque. I dati non sono più prompt statici. L'addestramento non è più traiettorie pulite. La valutazione non è più risposte a colpo singolo.
Uno dei contributi più importanti è la scalabilità ambientale. Gli autori generano automaticamente oltre 10.000 ambienti eseguibili in oltre 20 domini, ciascuno ancorato a strumenti reali, database reali e molteplici percorsi di soluzione validi. La difficoltà aumenta strutturalmente, non con trucchi di prompt ingegnosi.
Fondamentale, non disinfettano il mondo. I fallimenti degli strumenti, le istruzioni ambigue, le uscite parziali e i feedback rumorosi vengono deliberatamente iniettati. Il rumore non è un bug. È il curriculum.
Per mantenere l'addestramento stabile a questa scala, estendono l'RL asincrono (DORA) per gestire interazioni a lungo termine e multi-turno con decine di migliaia di ambienti concorrenti senza collassare.
Al momento dell'inferenza, introducono la Modalità di Pensiero Pesante. Invece di una lunga catena di pensiero, il modello esegue percorsi di ragionamento paralleli e poi riflette su di essi prima di agire. Questo supera costantemente la coerenza interna in compiti complessi e agentici.
I risultati parlano chiaro. Prestazioni all'avanguardia su BrowseComp, τ²-Bench e VitaBench. Ottimi risultati in matematica, programmazione e ricerca. E, cosa più importante, molto meno degrado in condizioni rumorose.
Il vero insegnamento è più netto di qualsiasi numero di benchmark:
La qualità del ragionamento non è più il collo di bottiglia.
La generalizzazione lo è.
E la generalizzazione non deriva da prompt migliori o pensieri più lunghi. Deriva da ambienti che reagiscono....

Principali
Ranking
Preferiti
