DApp Store | Web3 Hub for hendelser og spill

Populære emner

Connor Davis

Grunnlegger av @getoutbox_ai Lær hvordan du bygger AI-agenter for GRATIS 👉 https://t.co/q9zPwlldZ4

MIT har nettopp publisert en artikkel som stille forklarer hvorfor LLM-resonnement møter en vegg og hvordan man kan komme seg forbi den. Den vanlige historien er at modeller feiler på vanskelige problemer fordi de mangler skala, data eller intelligens. Denne artikkelen argumenterer for noe langt mer strukturelt: modeller slutter å forbedres fordi læringssignalet forsvinner. Når en oppgave blir for vanskelig, kollapser suksessraten mot null, forsterkningslæring har ingenting å optimalisere, og resonnementet stagnerer. Svikten er ikke kognitiv, den er pedagogisk. Forfatterne foreslår en enkel, men radikal omformulering. I stedet for å spørre hvordan man kan få modeller til å løse vanskeligere problemer, spør de hvordan modeller kan generere problemer som lærer dem. Deres system, SOAR, deler en enkelt forhåndstrent modell inn i to roller: en elev som forsøker ekstremt vanskelige måloppgaver, og en lærer som genererer nye treningsproblemer. Ulempen er at læreren ikke blir belønnet for å levere smarte eller realistiske spørsmål. Den belønnes kun hvis elevens prestasjon forbedres på et fast sett med reelle evalueringsproblemer. Ingen forbedring betyr null belønning. Det insentivet endrer alt. Læreren lærer å generere mellomliggende oppgaver som ligger rett innenfor elevens nåværende evnegrense. Disse problemene er ikke forenklede versjoner av måloppgaven, og slående nok krever de ikke engang riktige løsninger. Det som betyr noe er at strukturen deres tvinger studenten til å praktisere riktig type resonnement, slik at gradient-signalet kan oppstå selv når direkte veiledning feiler. De eksperimentelle resultatene gjør poenget smertefullt klart. På benchmarks hvor modellene starter uten suksess og standard forsterkningslæring er helt flatlinet, bryter SOAR fastlåsingen og forbedrer ytelsen jevnt. Modellen unnslipper grensen for lærbarhet ikke ved å tenke hardere, men ved å bygge et bedre læringsmiljø for seg selv. Den dypere implikasjonen er ubehagelig. Mange såkalte «resonnementbegrensninger» er kanskje ikke intelligensgrenser i det hele tatt. De er artefakter fra treningsoppsett som antar at verden gir lærbare oppgaver gratis. Denne artikkelen antyder at hvis modeller kan forme sin egen læreplan, blir resonnementplatåer ingeniørproblemer, ikke grunnleggende barrierer. Ingen nye arkitekturer, ingen ekstra menneskelige data, ingen større modeller. Bare et skifte i hva vi belønner: læringsfremgang i stedet for svar.

Herregud... Denne artikkelen forklarer stille hvorfor de fleste "resonnement"-modeller faller fra hverandre i det øyeblikket du kobler dem fra rene benchmarks og slipper dem ut i den virkelige verden. LongCat-teamet tar tak i et spørsmål feltet stadig unnviker: hvis dagens modeller er så gode til å resonnere, hvorfor feiler de fortsatt på grunnleggende agentatferd når verktøy brytes, instruksjoner blir uklare, eller miljøene presser seg tilbake? Svaret deres er ubehagelig. Resonnement mislykkes ikke fordi tankekjeder er for korte. Det mislykkes fordi vi trente opp tenkning uten konsekvenser. Artikkelen introduserer LongCat-Flash-Thinking-2601, en 560B-parameter Mixture-of-Experts-modell bygget rundt en enkel, men radikal idé: resonnement blir bare pålitelig når det tvinges til å handle, observere feil og tilpasse seg i virkelige omgivelser. I stedet for å behandle resonnement som tekstgenerering, rammer de det inn som en løkke: Observer → planlegg → handle → få tilbakemelding → revidere. Det skiftet sprer seg overalt. Data er ikke lenger statiske prompts. Trening er ikke rene baner. Evaluering er ikke enkeltstående svar. Et av de viktigste bidragene er miljøskala. Forfatterne genererer automatisk 10 000+ kjørbare miljøer på tvers av 20+ domener, hver basert på ekte verktøy, reelle databaser og flere gyldige løsningsbaner. Vanskelighetsgraden øker strukturelt, ikke med smarte prompt-triks. Avgjørende er at de ikke renser verden. Verktøyfeil, tvetydige instruksjoner, delvise utganger og støyende tilbakemelding blir bevisst injisert. Støy er ikke en feil. Det er pensumet. For å holde treningen stabil på denne skalaen, utvider de asynkron RL (DORA) for å håndtere langhorisontale, fleromgangsinteraksjoner med titusenvis av samtidige miljøer uten å kollapse. Ved slutningstidspunktet introduserer de Heavy Thinking Mode. I stedet for én lang tankekjede, kjører modellen parallelle resonnementsveier og reflekterer deretter over dem før den handler. Dette slår konsekvent selvkonsistens på komplekse, agentiske oppgaver. Resultatene taler høyt. Topp moderne ytelse på BrowseComp, τ²-Bench og VitaBench. Sterk matematikk, koding og søkeresultater. Og viktigst av alt, langt mindre nedbrytning under støyende forhold. Den virkelige konklusjonen er skarpere enn noe referansetall: Resonnementets kvalitet er ikke lenger flaskehalsen. Generalisering er det. Og generalisering kommer ikke fra bedre prompts eller lengre tanker. Det kommer fra miljøer som motsetter seg. Hvis vi vil ha agenter som jobber utenfor demoer, må vi slutte å trene dem i rene, imaginære verdener. Intelligens blir ikke smidd der alt går riktig. Den er smidd der ting går i stykker. Artikkel: LongCat-Flash-Thinking-2601 Teknisk rapport Les hele artikkelen her på:

Topp

Rangering

Favoritter