Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O MIT acaba de publicar um artigo que explica discretamente por que o raciocínio dos LLM atinge um impasse e como superá-lo.
A história habitual é que os modelos falham em problemas difíceis porque carecem de escala, dados ou inteligência.
Este artigo argumenta algo muito mais estrutural: os modelos param de melhorar porque o sinal de aprendizagem desaparece. Uma vez que uma tarefa se torna demasiado difícil, as taxas de sucesso colapsam para zero, o aprendizado por reforço não tem nada para otimizar e o raciocínio estagna. A falha não é cognitiva, é pedagógica.
Os autores propõem uma reformulação simples, mas radical. Em vez de perguntar como fazer os modelos resolverem problemas mais difíceis, eles perguntam como os modelos podem gerar problemas que os ensinem.
O sistema deles, SOAR, divide um único modelo pré-treinado em dois papéis: um estudante que tenta tarefas-alvo extremamente difíceis e um professor que gera novos problemas de treino. O detalhe é que o professor não é recompensado por produzir perguntas inteligentes ou realistas. Ele é recompensado apenas se o desempenho do estudante melhorar em um conjunto fixo de problemas de avaliação reais. Nenhuma melhoria significa zero recompensa.
Esse incentivo transforma tudo.
O professor aprende a gerar problemas intermediários, de degrau, que estão apenas dentro do limite atual de capacidade do estudante. Esses problemas não são versões simplificadas da tarefa-alvo e, de forma impressionante, nem mesmo requerem soluções corretas.
O que importa é que sua estrutura força o estudante a praticar o tipo certo de raciocínio, permitindo que o sinal de gradiente emerja mesmo quando a supervisão direta falha.
Os resultados experimentais tornam o ponto dolorosamente claro. Em benchmarks onde os modelos começam com zero sucesso e o aprendizado por reforço padrão completamente estagna, o SOAR quebra o impasse e melhora o desempenho de forma constante.
O modelo escapa da borda da aprendibilidade não pensando mais, mas construindo um melhor ambiente de aprendizagem para si mesmo.
A implicação mais profunda é desconfortável. Muitos supostos "limites de raciocínio" podem não ser limites de inteligência de forma alguma. Eles são artefatos de configurações de treino que assumem que o mundo fornece problemas aprendíveis de graça.
Este artigo sugere que, se os modelos podem moldar seu próprio currículo, os platôs de raciocínio tornam-se problemas de engenharia, não barreiras fundamentais.
Sem novas arquiteturas, sem dados humanos extras, sem modelos maiores. Apenas uma mudança no que recompensamos: progresso de aprendizagem em vez de respostas.

Top
Classificação
Favoritos
