Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Andrej Karpathy

Construção @EurekaLabsAI. Anteriormente Diretor de IA @ Tesla, equipe fundadora @ OpenAI, CS231n/PhD @ Stanford. Eu gosto de treinar grandes redes neurais profundas.

Na era do pré-treinamento, o que importava era o texto da internet. Você gostaria principalmente de uma coleção grande, diversificada e de alta qualidade de documentos da internet para aprender. Na era do ajuste fino supervisionado, eram conversas. Trabalhadores contratados são contratados para criar respostas para perguntas, um pouco como o que você veria no Stack Overflow / Quora, ou etc., mas voltado para casos de uso de LLM. Nenhum dos dois acima vai desaparecer (na minha opinião), mas nesta era de aprendizado por reforço, agora são ambientes. Ao contrário do acima, eles dão ao LLM a oportunidade de realmente interagir - tomar ações, ver resultados, etc. Isso significa que você pode esperar fazer muito melhor do que a imitação estatística de especialistas. E eles podem ser usados tanto para treinamento quanto para avaliação do modelo. Mas, assim como antes, o problema central agora é a necessidade de um conjunto grande, diversificado e de alta qualidade de ambientes, como exercícios para o LLM praticar. De certa forma, sou lembrado do primeiro projeto da OpenAI (gym), que era exatamente uma estrutura esperando construir uma grande coleção de ambientes no mesmo esquema, mas isso foi muito antes dos LLMs. Então, os ambientes eram tarefas de controle acadêmico simples da época, como cartpole, ATARI, etc. O hub de ambientes @PrimeIntellect (e o repositório `verifiers` no GitHub) constrói a versão modernizada especificamente direcionada a LLMs, e é um grande esforço/ideia. Eu sugeri que alguém construísse algo assim no início deste ano: Os ambientes têm a propriedade de que, uma vez que o esqueleto da estrutura esteja em vigor, em princípio, a comunidade/indústria pode paralelizar em muitos domínios diferentes, o que é empolgante. Pensamento final - pessoalmente e a longo prazo, sou otimista em relação a ambientes e interações agentivas, mas sou pessimista em relação ao aprendizado por reforço especificamente. Eu acho que funções de recompensa são super suspeitas, e eu acho que os humanos não usam RL para aprender (talvez o façam para algumas tarefas motoras, etc., mas não para tarefas de resolução de problemas intelectuais). Os humanos usam paradigmas de aprendizado diferentes que são significativamente mais poderosos e eficientes em amostras e que ainda não foram devidamente inventados e escalados, embora esboços e ideias iniciais existam (como apenas um exemplo, a ideia de "aprendizado de prompt de sistema", movendo a atualização para tokens/contextos, não pesos, e opcionalmente destilando para pesos como um processo separado, um pouco como o sono faz).

Continuando a jornada de uma experiência de codificação otimizada assistida por LLM. Em particular, descubro que, em vez de me concentrar em uma única coisa perfeita, meu uso está cada vez mais diversificado em alguns fluxos de trabalho que eu "costuro" os prós e contras: Pessoalmente, o pão com manteiga (~75%?) da minha assistência LLM continua a ser apenas o (Cursor) completar com tab. Isso porque acho que escrever blocos concretos de código/comentários eu mesmo e na parte certa do código é uma maneira de alta largura de banda de comunicar "especificação de tarefa" ao LLM, ou seja, é principalmente sobre os bits de especificação de tarefa - leva muitos bits e muita latência para comunicar o que quero em texto, e é mais rápido apenas demonstrar isso no código e no lugar certo. Às vezes, o modelo de completar com tab é irritante, então eu alterno entre ligá-lo/desligá-lo com frequência. O próximo nível é destacar um bloco concreto de código e pedir algum tipo de modificação. O próximo nível é Claude Code / Codex / etc., rodando ao lado do Cursor, que eu uso para blocos maiores de funcionalidade que também são relativamente fáceis de especificar em um prompt. Estes são super úteis, mas ainda misturados no geral e ligeiramente frustrantes às vezes. Eu não opero no modo YOLO porque eles podem sair do caminho e fazer coisas estúpidas que você não queria/precisava e eu ESC com bastante frequência. Também não aprendi a ser produtivo usando mais de uma instância em paralelo - uma já parece difícil o suficiente. Não consegui descobrir uma boa maneira de manter o CLAUDE[.]md bom ou atualizado. Muitas vezes tenho que fazer uma passada de "limpezas" para estilo de codificação, ou questões de gosto de código. Por exemplo, eles são muito defensivos e muitas vezes usam excessivamente declarações try/catch, muitas vezes complicam demais abstrações, sobrecarregam o código (por exemplo, uma construção if-else aninhada quando uma compreensão de lista ou um if-then-else de uma linha funcionaria), ou duplicam blocos de código em vez de criar uma boa função auxiliar, coisas assim... eles basicamente não têm senso de gosto. Eles são indispensáveis em casos onde eu entro em um território de codificação mais intuitivo onde estou menos familiarizado (por exemplo, escrevendo um pouco de rust recentemente, ou comandos sql, ou qualquer outra coisa que eu tenha feito menos antes). Também tentei usar o CC para me ensinar coisas ao lado do código que estava escrevendo, mas isso não funcionou de jeito nenhum - ele realmente quer apenas escrever código muito mais do que quer explicar qualquer coisa ao longo do caminho. Tentei fazer o CC realizar ajuste de hiperparâmetros, o que foi altamente divertido. Eles também são super úteis em todos os tipos de visualizações personalizadas ou utilitários de depuração de baixo risco que eu nunca escreveria de outra forma porque levaria muito tempo. Por exemplo, o CC pode produzir 1.000 linhas de visualização/código extensivo apenas para identificar um bug específico, que é tudo deletado logo após encontrá-lo. É a era do pós-escassez de código - você pode simplesmente criar e depois deletar milhares de linhas de código super personalizado e super efêmero agora, tudo bem, não é mais essa coisa preciosa e custosa. O último nível de defesa é o GPT5 Pro, que eu uso para as coisas mais difíceis. Por exemplo, já aconteceu algumas vezes que eu / Cursor / CC estamos todos presos em um bug por 10 minutos, mas quando copio e colo tudo no 5 Pro, ele vai por 10 minutos, mas então realmente encontra um bug muito sutil. É muito forte. Ele pode descobrir todos os tipos de documentos e artigos esotéricos e afins. Também o usei para outras tarefas mais substanciais, por exemplo, sugestões sobre como limpar abstrações (resultados mistos, às vezes boas ideias, mas nem todas), ou uma revisão completa da literatura sobre como as pessoas fazem isso ou aquilo e ele retorna com bons recursos/pontos relevantes. De qualquer forma, codificar parece completamente aberto a possibilidades em uma série de "tipos" de codificação e, em seguida, uma série de ferramentas com seus prós e contras. É difícil evitar a sensação de ansiedade em não estar na vanguarda do que é coletivamente possível, daí um aleatório banho de pensamentos de domingo e uma boa quantidade de curiosidade sobre o que os outros estão descobrindo.

Top

Classificação

Favoritos