Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

O MIT acaba de publicar um artigo que explica discretamente por que o raciocínio dos LLM atinge um impasse e como superá-lo. A história habitual é que os modelos falham em problemas difíceis porque carecem de escala, dados ou inteligência. Este artigo argumenta algo muito mais estrutural: os modelos param de melhorar porque o sinal de aprendizagem desaparece. Uma vez que uma tarefa se torna demasiado difícil, as taxas de sucesso colapsam para zero, o aprendizado por reforço não tem nada para otimizar e o raciocínio estagna. A falha não é cognitiva, é pedagógica. Os autores propõem uma reformulação simples, mas radical. Em vez de perguntar como fazer os modelos resolverem problemas mais difíceis, eles perguntam como os modelos podem gerar problemas que os ensinem. O sistema deles, SOAR, divide um único modelo pré-treinado em dois papéis: um estudante que tenta tarefas-alvo extremamente difíceis e um professor que gera novos problemas de treino. O detalhe é que o professor não é recompensado por produzir perguntas inteligentes ou realistas. Ele é recompensado apenas se o desempenho do estudante melhorar em um conjunto fixo de problemas de avaliação reais. Nenhuma melhoria significa zero recompensa. Esse incentivo transforma tudo. O professor aprende a gerar problemas intermediários, de degrau, que estão apenas dentro do limite atual de capacidade do estudante. Esses problemas não são versões simplificadas da tarefa-alvo e, de forma impressionante, nem mesmo requerem soluções corretas. O que importa é que sua estrutura força o estudante a praticar o tipo certo de raciocínio, permitindo que o sinal de gradiente emerja mesmo quando a supervisão direta falha. Os resultados experimentais tornam o ponto dolorosamente claro. Em benchmarks onde os modelos começam com zero sucesso e o aprendizado por reforço padrão completamente estagna, o SOAR quebra o impasse e melhora o desempenho de forma constante. O modelo escapa da borda da aprendibilidade não pensando mais, mas construindo um melhor ambiente de aprendizagem para si mesmo. A implicação mais profunda é desconfortável. Muitos supostos "limites de raciocínio" podem não ser limites de inteligência de forma alguma. Eles são artefatos de configurações de treino que assumem que o mundo fornece problemas aprendíveis de graça. Este artigo sugere que, se os modelos podem moldar seu próprio currículo, os platôs de raciocínio tornam-se problemas de engenharia, não barreiras fundamentais. Sem novas arquiteturas, sem dados humanos extras, sem modelos maiores. Apenas uma mudança no que recompensamos: progresso de aprendizagem em vez de respostas.

Top

Classificação

Favoritos