Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Heilige Scheiße... Dieses Papier erklärt leise, warum die meisten "denkenden" Modelle zusammenbrechen, sobald man sie von sauberen Benchmarks trennt und in die reale Welt eintaucht.
Das LongCat-Team beschäftigt sich mit einer Frage, die das Feld immer wieder umgeht: Wenn die heutigen Modelle so gut im Denken sind, warum scheitern sie dann immer noch an grundlegenden Verhaltensweisen von Agenten, sobald Werkzeuge versagen, Anweisungen unklar werden oder Umgebungen zurückschlagen?
Ihre Antwort ist unangenehm. Denken scheitert nicht, weil die Gedankenketten zu kurz sind. Es scheitert, weil wir das Denken ohne Konsequenzen trainiert haben.
Das Papier stellt LongCat-Flash-Thinking-2601 vor, ein 560B-Parameter Mixture-of-Experts-Modell, das auf einer einfachen, aber radikalen Idee basiert: Denken wird nur dann zuverlässig, wenn es gezwungen wird zu handeln, Misserfolge zu beobachten und sich in realen Umgebungen anzupassen.
Anstatt Denken als Textgenerierung zu behandeln, rahmen sie es als Schleife ein:
beobachten → planen → handeln → Feedback erhalten → überarbeiten.
Dieser Wandel hat überall Auswirkungen. Daten sind nicht mehr statische Eingabeaufforderungen. Training sind keine sauberen Trajektorien. Evaluation sind keine einmaligen Antworten.
Einer der wichtigsten Beiträge ist die Skalierung der Umgebung. Die Autoren generieren automatisch über 10.000 ausführbare Umgebungen in über 20 Domänen, die alle in realen Werkzeugen, realen Datenbanken und mehreren gültigen Lösungswegen verankert sind. Die Schwierigkeit steigt strukturell, nicht durch clevere Eingabeaufforderungen.
Wesentlich ist, dass sie die Welt nicht sanieren. Werkzeugfehler, mehrdeutige Anweisungen, teilweise Ausgaben und rauschendes Feedback werden absichtlich injiziert. Rauschen ist kein Fehler. Es ist der Lehrplan.
Um das Training in diesem Maßstab stabil zu halten, erweitern sie asynchrones RL (DORA), um langanhaltende, mehrstufige Interaktionen mit zehntausenden gleichzeitigen Umgebungen zu bewältigen, ohne zusammenzubrechen.
Zur Inferenzzeit führen sie den Heavy Thinking Mode ein. Anstatt einer langen Gedankenkette führt das Modell parallele Denkpfade aus und reflektiert dann über sie, bevor es handelt. Dies übertrifft konsequent die Selbstkonsistenz bei komplexen, agentischen Aufgaben.
Die Ergebnisse sprechen Bände. Spitzenleistung bei BrowseComp, τ²-Bench und VitaBench. Starke Ergebnisse in Mathematik, Programmierung und Suche. Und am wichtigsten, viel weniger Verschlechterung unter rauschenden Bedingungen.
Die eigentliche Erkenntnis ist schärfer als jede Benchmark-Zahl:
Die Qualität des Denkens ist nicht länger der Engpass.
Die Generalisierung ist es.
Und Generalisierung kommt nicht von besseren Eingabeaufforderungen oder längeren Gedanken. Sie kommt von Umgebungen, die zurückschlagen....

Top
Ranking
Favoriten
