DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

O MIT acabou de publicar um artigo que explica discretamente por que o raciocínio do LLM bate em uma barreira e como superá-lo. A história comum é que os modelos falham em problemas difíceis porque lhes falta escala, dados ou inteligência. Este artigo argumenta algo muito mais estrutural: os modelos param de melhorar porque o sinal de aprendizado desaparece. Quando uma tarefa se torna muito difícil, as taxas de sucesso despencam para zero, o aprendizado por reforço não tem nada para otimizar e o raciocínio estagna. A falha não é cognitiva, é pedagógica. Os autores propõem uma reformulação simples, porém radical. Em vez de perguntar como fazer modelos resolver problemas mais difíceis, eles perguntam como os modelos podem gerar problemas que os ensino. O sistema deles, SOAR, divide um único modelo pré-treinado em dois papéis: um aluno que tenta tarefas alvo extremamente difíceis e um professor que gera novos problemas de treinamento. O problema é que o professor não é recompensado por produzir perguntas inteligentes ou realistas. Ele é recompensado apenas se o desempenho do aluno melhorar em um conjunto fixo de problemas reais de avaliação. Sem melhora, zero recompensa. Esse incentivo muda tudo. O professor aprende a gerar problemas intermediários e de passo que ficam logo dentro do limite de capacidade atual do aluno. Esses problemas não são versões simplificadas da tarefa alvo e, surpreendentemente, nem sequer exigem soluções corretas. O que importa é que sua estrutura force o aluno a praticar o tipo correto de raciocínio, permitindo que o sinal de gradiente surja mesmo quando a supervisão direta falha. Os resultados experimentais deixam esse ponto dolorosamente claro. Em benchmarks onde os modelos começam sem sucesso e o aprendizado por reforço padrão fica completamente estagnado, o SOAR quebra o impasse e melhora o desempenho de forma constante. O modelo escapa da borda da aprendibilidade não pensando mais, mas construindo um ambiente de aprendizado melhor para si mesmo. A implicação mais profunda é desconfortável. Muitos supostos "limites de raciocínio" podem não ser limites da inteligência. São artefatos de sistemas de treinamento que assumem que o mundo oferece problemas aprendíveis gratuitamente. Este artigo sugere que, se os modelos podem moldar seu próprio currículo, os platôs do raciocínio se tornam problemas de engenharia, não barreiras fundamentais. Sem novas arquiteturas, sem dados humanos extras, sem modelos maiores. Apenas uma mudança no que recompensamos: aprender progresso em vez de respostas.

Melhores

Classificação

Favoritos