DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

MIT hat gerade ein Papier veröffentlicht, das leise erklärt, warum das Denken von LLMs an eine Wand stößt und wie man darüber hinauskommt. Die übliche Geschichte ist, dass Modelle bei schwierigen Problemen scheitern, weil ihnen Skalierung, Daten oder Intelligenz fehlen. Dieses Papier argumentiert etwas viel Strukturelleres: Modelle hören auf, sich zu verbessern, weil das Lernsignal verschwindet. Sobald eine Aufgabe zu schwierig wird, sinken die Erfolgsquoten gegen null, das verstärkende Lernen hat nichts zu optimieren, und das Denken stagniert. Das Scheitern ist nicht kognitiv, sondern pädagogisch. Die Autoren schlagen eine einfache, aber radikale Umformulierung vor. Anstatt zu fragen, wie man Modelle dazu bringen kann, schwierigere Probleme zu lösen, fragen sie, wie Modelle Probleme generieren können, die sie lehren. Ihr System, SOAR, teilt ein einzelnes vortrainiertes Modell in zwei Rollen auf: einen Schüler, der extrem schwierige Zielaufgaben versucht, und einen Lehrer, der neue Trainingsprobleme generiert. Der Haken ist, dass der Lehrer nicht dafür belohnt wird, clevere oder realistische Fragen zu stellen. Er wird nur belohnt, wenn die Leistung des Schülers bei einem festen Satz von realen Bewertungsproblemen verbessert wird. Keine Verbesserung bedeutet null Belohnung. Dieser Anreiz verändert alles. Der Lehrer lernt, Zwischenprobleme zu generieren, die gerade innerhalb der aktuellen Fähigkeitsgrenze des Schülers liegen. Diese Probleme sind keine vereinfachten Versionen der Zielaufgabe, und bemerkenswerterweise erfordern sie nicht einmal korrekte Lösungen. Was zählt, ist, dass ihre Struktur den Schüler zwingt, die richtige Art von Denken zu üben, wodurch das Gradienten-Signal auch dann entsteht, wenn die direkte Aufsicht versagt. Die experimentellen Ergebnisse machen den Punkt schmerzhaft deutlich. Bei Benchmarks, bei denen Modelle mit null Erfolg beginnen und das standardmäßige verstärkende Lernen völlig stagnierend ist, durchbricht SOAR den Stillstand und verbessert die Leistung stetig. Das Modell entkommt der Grenze der Lernbarkeit nicht, indem es härter denkt, sondern indem es sich selbst eine bessere Lernumgebung schafft. Die tiefere Implikation ist unangenehm. Viele angebliche "Denkschranken" sind möglicherweise überhaupt keine Grenzen der Intelligenz. Sie sind Artefakte von Trainingsaufbauten, die annehmen, dass die Welt kostenlos lernbare Probleme bereitstellt. Dieses Papier legt nahe, dass, wenn Modelle ihren eigenen Lehrplan gestalten können, Denkplateaus zu Ingenieurproblemen werden, nicht zu fundamentalen Barrieren. Keine neuen Architekturen, keine zusätzlichen menschlichen Daten, keine größeren Modelle. Nur eine Verschiebung dessen, was wir belohnen: Lernfortschritt statt Antworten.

Top

Ranking

Favoriten