Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Connor Davis

Fundador de @getoutbox_ai Aprende a crear agentes de IA GRATIS 👉 https://t.co/q9zPwlldZ4

El MIT acaba de publicar un artículo que explica discretamente por qué el razonamiento LLM se topa con un muro y cómo superarlo. La historia habitual es que los modelos fallan en problemas difíciles porque carecen de escala, datos o inteligencia. Este artículo argumenta algo mucho más estructural: los modelos dejan de mejorar porque la señal de aprendizaje desaparece. Cuando una tarea se vuelve demasiado difícil, las tasas de éxito caen hacia cero, el aprendizaje por refuerzo no tiene nada que optimizar y el razonamiento se estanca. El fracaso no es cognitivo, es pedagógico. Los autores proponen un replanteamiento sencillo pero radical. En lugar de preguntar cómo hacer que los modelos resuelvan problemas más difíciles, preguntan cómo pueden generar problemas que les enseñen. Su sistema, SOAR, divide un único modelo preentrenado en dos roles: un estudiante que realiza tareas extremadamente difíciles y un profesor que genera nuevos problemas de formación. La cuestión es que el profesor no es recompensado por hacer preguntas ingeniosas o realistas. Solo se recompensa si el rendimiento del estudiante mejora en un conjunto fijo de problemas reales de evaluación. Sin mejora, cero recompensa. Ese incentivo lo cambia todo. El profesor aprende a generar problemas intermedios y de paso que se sitúan justo dentro del límite de capacidad actual del alumno. Estos problemas no son versiones simplificadas de la tarea objetivo y, sorprendentemente, ni siquiera requieren soluciones correctas. Lo importante es que su estructura obligue al estudiante a practicar el razonamiento adecuado, permitiendo que surja una señal de gradiente incluso cuando la supervisión directa falla. Los resultados experimentales dejan el punto dolorosamente claro. En benchmarks donde los modelos empiezan sin éxito y el aprendizaje por refuerzo estándar se estanca por completo, SOAR rompe el estancamiento y mejora el rendimiento de forma constante. El modelo escapa al límite de la aprendibilidad no pensando más, sino construyendo un mejor entorno de aprendizaje para sí mismo. La implicación más profunda es incómoda. Muchos supuestos "límites de razonamiento" pueden no ser límites de inteligencia en absoluto. Son artefactos de sistemas de entrenamiento que asumen que el mundo ofrece problemas aprendibles gratis. Este artículo sugiere que si los modelos pueden moldear su propio currículo, los estancamientos del razonamiento se convierten en problemas de ingeniería, no en barreras fundamentales. Sin nuevas arquitecturas, sin datos humanos adicionales, sin modelos más grandes. Simplemente un cambio en lo que premiamos: aprender progreso en lugar de respuestas.

Joder... Este artículo explica discretamente por qué la mayoría de los modelos de "razonamiento" se desmontan en el momento en que los desconectas de benchmarks limpios y los lanzas al mundo real. El equipo de LongCat aborda una pregunta que el campo sigue esquivando: si los modelos actuales son tan buenos razonando, ¿por qué siguen fallando en el comportamiento básico de los agentes una vez que las herramientas fallan, las instrucciones se vuelven difusas o los entornos se defienden? Su respuesta es incómoda. El razonamiento no falla porque las cadenas de pensamiento sean demasiado cortas. Fracasa porque entrenamos el pensamiento sin consecuencias. El artículo presenta LongCat-Flash-Thinking-2601, un modelo de Mezcla de Expertos con 560B parámetros construido en torno a una idea simple pero radical: el razonamiento solo se vuelve fiable cuando se ve obligado a actuar, observar fallos y adaptarse dentro de entornos reales. En lugar de tratar el razonamiento como generación de texto, lo enmarcan como un bucle: Observa → planifica → actúa → recibe feedback → revisa. Ese cambio se propaga por todas partes. Los datos ya no son indicaciones estáticas. El entrenamiento no son trayectorias limpias. La evaluación no son respuestas de un solo golpe. Una de las contribuciones más importantes es la escalada ambiental. Los autores generan automáticamente 10.000+ entornos ejecutables en 20+ dominios, cada uno basado en herramientas reales, bases de datos reales y múltiples rutas válidas de solución. La dificultad aumenta estructuralmente, no con trucos ingeniosos de prompt. Lo más importante es que no desinfectan el mundo. Se inyectan deliberadamente fallos de herramientas, instrucciones ambiguas, salidas parciales y retroalimentación ruidosa. El ruido no es un error. Es el currículo. Para mantener el entrenamiento estable a esta escala, extienden el RL asíncrono (DORA) para manejar interacciones de largo horizonte y múltiples vueltas con decenas de miles de entornos concurrentes sin colapsar. En el momento de la inferencia, introducen el Modo de Pensamiento Pesado. En lugar de una larga cadena de pensamiento, el modelo recorre caminos de razonamiento paralelos y luego se refleja a través de ellos antes de actuar. Esto supera consistentemente a la autocoherencia en tareas complejas y agentiales. Los resultados hablan con fuerza. Rendimiento de última generación en BrowseComp, τ²-Bench y VitaBench. Matemáticas, programación y resultados de búsqueda sólidos. Y, lo más importante, mucha menos degradación en condiciones ruidosas. La verdadera conclusión es más clara que cualquier número de referencia: La calidad del razonamiento ya no es el cuello de botella. La generalización lo es. Y la generalización no viene de mejores indicaciones ni de pensamientos más largos. Viene de entornos que se resisten. Si queremos agentes que trabajen fuera de las demos, tenemos que dejar de entrenarlos en mundos limpios e imaginarios. La inteligencia no se forja donde todo sale bien. Se forja donde las cosas se rompen. Artículo: Informe técnico LongCat-Flash-Thinking-2601 Lee el artículo completo aquí en:

Populares

Ranking

Favoritas