DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

MIT acaba de publicar un artículo que explica de manera discreta por qué el razonamiento de los LLM se encuentra con un muro y cómo superarlo. La historia habitual es que los modelos fallan en problemas difíciles porque carecen de escala, datos o inteligencia. Este artículo argumenta algo mucho más estructural: los modelos dejan de mejorar porque la señal de aprendizaje desaparece. Una vez que una tarea se vuelve demasiado difícil, las tasas de éxito colapsan hacia cero, el aprendizaje por refuerzo no tiene nada que optimizar y el razonamiento se estanca. El fallo no es cognitivo, es pedagógico. Los autores proponen un replanteamiento simple pero radical. En lugar de preguntar cómo hacer que los modelos resuelvan problemas más difíciles, preguntan cómo pueden los modelos generar problemas que les enseñen. Su sistema, SOAR, divide un único modelo preentrenado en dos roles: un estudiante que intenta tareas objetivo extremadamente difíciles y un profesor que genera nuevos problemas de entrenamiento. La trampa es que el profesor no es recompensado por producir preguntas ingeniosas o realistas. Solo se le recompensa si el rendimiento del estudiante mejora en un conjunto fijo de problemas de evaluación reales. No hay mejora, no hay recompensa. Ese incentivo reconfigura todo. El profesor aprende a generar problemas intermedios, escalones que se sitúan justo dentro del límite de capacidad actual del estudiante. Estos problemas no son versiones simplificadas de la tarea objetivo y, sorprendentemente, ni siquiera requieren soluciones correctas. Lo que importa es que su estructura obliga al estudiante a practicar el tipo correcto de razonamiento, permitiendo que la señal de gradiente emerja incluso cuando la supervisión directa falla. Los resultados experimentales dejan el punto dolorosamente claro. En benchmarks donde los modelos comienzan con cero éxito y el aprendizaje por refuerzo estándar se estanca por completo, SOAR rompe el estancamiento y mejora el rendimiento de manera constante. El modelo escapa del borde de la aprendibilidad no pensando más duro, sino construyendo un mejor entorno de aprendizaje para sí mismo. La implicación más profunda es incómoda. Muchos de los supuestos "límites de razonamiento" pueden no ser límites de inteligencia en absoluto. Son artefactos de configuraciones de entrenamiento que asumen que el mundo proporciona problemas aprendibles de forma gratuita. Este artículo sugiere que si los modelos pueden dar forma a su propio currículo, los plateaus de razonamiento se convierten en problemas de ingeniería, no en barreras fundamentales. Sin nuevas arquitecturas, sin datos humanos adicionales, sin modelos más grandes. Solo un cambio en lo que recompensamos: el progreso en el aprendizaje en lugar de las respuestas.

Parte superior

Clasificación

Favoritos