DApp Store | Web3 Hub for hendelser og spill

Populære emner

Herregud... Denne artikkelen forklarer stille hvorfor de fleste "resonnement"-modeller faller fra hverandre i det øyeblikket du kobler dem fra rene benchmarks og slipper dem ut i den virkelige verden. LongCat-teamet tar tak i et spørsmål feltet stadig unnviker: hvis dagens modeller er så gode til å resonnere, hvorfor feiler de fortsatt på grunnleggende agentatferd når verktøy brytes, instruksjoner blir uklare, eller miljøene presser seg tilbake? Svaret deres er ubehagelig. Resonnement mislykkes ikke fordi tankekjeder er for korte. Det mislykkes fordi vi trente opp tenkning uten konsekvenser. Artikkelen introduserer LongCat-Flash-Thinking-2601, en 560B-parameter Mixture-of-Experts-modell bygget rundt en enkel, men radikal idé: resonnement blir bare pålitelig når det tvinges til å handle, observere feil og tilpasse seg i virkelige omgivelser. I stedet for å behandle resonnement som tekstgenerering, rammer de det inn som en løkke: Observer → planlegg → handle → få tilbakemelding → revidere. Det skiftet sprer seg overalt. Data er ikke lenger statiske prompts. Trening er ikke rene baner. Evaluering er ikke enkeltstående svar. Et av de viktigste bidragene er miljøskala. Forfatterne genererer automatisk 10 000+ kjørbare miljøer på tvers av 20+ domener, hver basert på ekte verktøy, reelle databaser og flere gyldige løsningsbaner. Vanskelighetsgraden øker strukturelt, ikke med smarte prompt-triks. Avgjørende er at de ikke renser verden. Verktøyfeil, tvetydige instruksjoner, delvise utganger og støyende tilbakemelding blir bevisst injisert. Støy er ikke en feil. Det er pensumet. For å holde treningen stabil på denne skalaen, utvider de asynkron RL (DORA) for å håndtere langhorisontale, fleromgangsinteraksjoner med titusenvis av samtidige miljøer uten å kollapse. Ved slutningstidspunktet introduserer de Heavy Thinking Mode. I stedet for én lang tankekjede, kjører modellen parallelle resonnementsveier og reflekterer deretter over dem før den handler. Dette slår konsekvent selvkonsistens på komplekse, agentiske oppgaver. Resultatene taler høyt. Topp moderne ytelse på BrowseComp, τ²-Bench og VitaBench. Sterk matematikk, koding og søkeresultater. Og viktigst av alt, langt mindre nedbrytning under støyende forhold. Den virkelige konklusjonen er skarpere enn noe referansetall: Resonnementets kvalitet er ikke lenger flaskehalsen. Generalisering er det. Og generalisering kommer ikke fra bedre prompts eller lengre tanker. Det kommer fra miljøer som motsetter seg....

Topp

Rangering

Favoritter