DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Connor Davis

Fundador da @getoutbox_ai Aprenda a construir Agentes de IA GRATUITAMENTE 👉 https://t.co/q9zPwlldZ4

O MIT acabou de publicar um artigo que explica discretamente por que o raciocínio do LLM bate em uma barreira e como superá-lo. A história comum é que os modelos falham em problemas difíceis porque lhes falta escala, dados ou inteligência. Este artigo argumenta algo muito mais estrutural: os modelos param de melhorar porque o sinal de aprendizado desaparece. Quando uma tarefa se torna muito difícil, as taxas de sucesso despencam para zero, o aprendizado por reforço não tem nada para otimizar e o raciocínio estagna. A falha não é cognitiva, é pedagógica. Os autores propõem uma reformulação simples, porém radical. Em vez de perguntar como fazer modelos resolver problemas mais difíceis, eles perguntam como os modelos podem gerar problemas que os ensino. O sistema deles, SOAR, divide um único modelo pré-treinado em dois papéis: um aluno que tenta tarefas alvo extremamente difíceis e um professor que gera novos problemas de treinamento. O problema é que o professor não é recompensado por produzir perguntas inteligentes ou realistas. Ele é recompensado apenas se o desempenho do aluno melhorar em um conjunto fixo de problemas reais de avaliação. Sem melhora, zero recompensa. Esse incentivo muda tudo. O professor aprende a gerar problemas intermediários e de passo que ficam logo dentro do limite de capacidade atual do aluno. Esses problemas não são versões simplificadas da tarefa alvo e, surpreendentemente, nem sequer exigem soluções corretas. O que importa é que sua estrutura force o aluno a praticar o tipo correto de raciocínio, permitindo que o sinal de gradiente surja mesmo quando a supervisão direta falha. Os resultados experimentais deixam esse ponto dolorosamente claro. Em benchmarks onde os modelos começam sem sucesso e o aprendizado por reforço padrão fica completamente estagnado, o SOAR quebra o impasse e melhora o desempenho de forma constante. O modelo escapa da borda da aprendibilidade não pensando mais, mas construindo um ambiente de aprendizado melhor para si mesmo. A implicação mais profunda é desconfortável. Muitos supostos "limites de raciocínio" podem não ser limites da inteligência. São artefatos de sistemas de treinamento que assumem que o mundo oferece problemas aprendíveis gratuitamente. Este artigo sugere que, se os modelos podem moldar seu próprio currículo, os platôs do raciocínio se tornam problemas de engenharia, não barreiras fundamentais. Sem novas arquiteturas, sem dados humanos extras, sem modelos maiores. Apenas uma mudança no que recompensamos: aprender progresso em vez de respostas.

Caramba... Este artigo explica discretamente por que a maioria dos modelos de "raciocínio" desmorona no momento em que você os desconecta de benchmarks limpos e os joga no mundo real. A equipe do LongCat enfrenta uma questão que o campo continua evitando: se os modelos atuais são tão bons em raciocinar, por que eles ainda falham no comportamento básico dos agentes quando as ferramentas quebram, as instruções ficam confusas ou os ambientes reagissem? A resposta deles é desconfortável. Raciocinar não falha porque as cadeias de pensamento são curtas demais. Ele falha porque treinamos o pensamento sem consequências. O artigo apresenta o LongCat-Flash-Thinking-2601, um modelo de Mistura de Especialistas com 560B parâmetros construído em torno de uma ideia simples, porém radical: o raciocínio só se torna confiável quando é forçado a agir, observar falhas e se adaptar em ambientes reais. Em vez de tratar o raciocínio como geração de texto, eles o enquadram como um ciclo: Observe → planeje → aja → receba feedback → revise. Essa mudança se espalha por toda parte. Os dados não são mais prompts estáticos. Treinamento não é trajetória limpa. Avaliação não é resposta de uma só vez. Uma das contribuições mais importantes é a escalabilidade ambiental. Os autores geram automaticamente 10.000+ ambientes executáveis em 20+ domínios, cada um baseado em ferramentas reais, bancos de dados reais e múltiplos caminhos válidos de solução. A dificuldade aumenta estruturalmente, não por truques inteligentes de prompt. Crucialmente, elas não sanitizam o mundo. Falhas de ferramentas, instruções ambíguas, saídas parciais e feedback ruidoso são deliberadamente injetados. Barulho não é um bug. É o currículo. Para manter o treinamento estável nessa escala, eles estendem o RL assíncrono (DORA) para lidar com interações de longo horizonte e múltiplas curvas com dezenas de milhares de ambientes concorrentes sem colapsar. No momento da inferência, eles introduzem o Modo Pensamento Pesado. Em vez de uma longa cadeia de pensamento, o modelo executa caminhos de raciocínio paralelos e depois reflete sobre eles antes de agir. Isso supera consistentemente a autoconsistência em tarefas complexas e agentais. Os resultados falam alto. Performance de última geração em BrowseComp, τ²-Bench e VitaBench. Matemática forte, programação e resultados de busca. E, mais importante, muito menos degradação em condições barulhentas. A verdadeira conclusão é mais clara do que qualquer número de referência: A qualidade do raciocínio não é mais o gargalo. Generalização é. E a generalização não vem de melhores estímulos ou pensamentos mais longos. Vem de ambientes que reagem. Se quisermos agentes que trabalhem fora das demonstrações, temos que parar de treiná-los em mundos limpos e imaginários. A inteligência não é forjada onde tudo dá certo. É forjado onde as coisas quebram. Artigo: LongCat-Flash-Thinking-2601 Relatório Técnico Leia o artigo completo aqui em:

Melhores

Classificação

Favoritos