DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Andrej Karpathy

Construindo @EurekaLabsAI. Anteriormente Diretor de AI @ Tesla, equipe fundadora @ OpenAI, CS231n/PhD @ Stanford. Eu gosto de treinar grandes redes neurais profundas.

Na era do pré-treinamento, o que importava era o texto da internet. Você gostaria principalmente de uma coleção grande, diversificada e de alta qualidade de documentos da Internet para aprender. Na era do ajuste fino supervisionado, eram conversas. Trabalhadores contratados são contratados para criar respostas para perguntas, um pouco como o que você veria no Stack Overflow / Quora, ou etc., mas voltado para casos de uso de LLM. Nenhum dos dois acima está indo embora (imo), mas nesta era de aprendizado por reforço, agora são ambientes. Ao contrário do acima, eles dão ao LLM a oportunidade de realmente interagir - realizar ações, ver resultados, etc. Isso significa que você pode esperar fazer muito melhor do que a imitação de especialistas em estatística. E eles podem ser usados tanto para treinamento quanto para avaliação de modelos. Mas, assim como antes, o problema central agora é a necessidade de um conjunto de ambientes grande, diversificado e de alta qualidade, como exercícios para o LLM praticar. De certa forma, lembro-me do primeiro projeto da OpenAI (academia), que era exatamente uma estrutura que esperava construir uma grande coleção de ambientes no mesmo esquema, mas isso foi muito antes dos LLMs. Portanto, os ambientes eram tarefas simples de controle acadêmico da época, como cartpole, ATARI, etc. O hub de ambientes @PrimeIntellect (e o repositório 'verifiers' no GitHub) constrói a versão modernizada voltada especificamente para LLMs, e é um grande esforço/ideia. Eu propus que alguém construísse algo parecido no início deste ano: Os ambientes têm a propriedade de que, uma vez que o esqueleto da estrutura esteja no lugar, em princípio, a comunidade / indústria pode paralelizar em muitos domínios diferentes, o que é empolgante. Pensamento final - pessoalmente e a longo prazo, estou otimista em relação a ambientes e interações agentes, mas estou pessimista especificamente em relação ao aprendizado por reforço. Eu acho que as funções de recompensa são super sus, e acho que os humanos não usam RL para aprender (talvez eles usem para algumas tarefas motoras, etc., mas não para tarefas de resolução de problemas intelectuais). Os humanos usam diferentes paradigmas de aprendizagem que são significativamente mais poderosos e eficientes em termos de amostra e que ainda não foram devidamente inventados e dimensionados, embora existam esboços e ideias iniciais (como apenas um exemplo, a ideia de "aprendizado imediato do sistema", movendo a atualização para tokens/contextos e não pesos e, opcionalmente, destilando para pesos como um processo separado, um pouco como o sono).

Continuando a jornada da experiência ideal de codificação assistida por LLM. Em particular, acho que, em vez de restringir uma coisa perfeita, meu uso está se diversificando cada vez mais em alguns fluxos de trabalho dos quais "costuro" os prós / contras: Pessoalmente, o pão com manteiga (~ 75%?) da minha assistência LLM continua a ser apenas (Cursor) guia completa. Isso ocorre porque acho que escrever pedaços concretos de código / comentários sozinho e na parte certa do código é uma maneira de alta largura de banda de comunicar a "especificação de tarefas" ao LLM, ou seja, trata-se principalmente de bits de especificação de tarefas - são necessários muitos bits e muita latência para comunicar o que eu quero em texto, E é mais rápido apenas demonstrá-lo no código e no lugar certo. Às vezes, o modelo completo da guia é irritante, então eu ligo / desligo muito. A próxima camada é destacar um pedaço concreto de código e pedir algum tipo de modificação. A próxima camada é Claude Code / Codex / etc, rodando na lateral do Cursor, que eu vou para pedaços maiores de funcionalidade que também são bastante fáceis de especificar em um prompt. Estes são super úteis, mas ainda mistos no geral e um pouco frustrantes às vezes. Eu não corro no modo YOLO porque eles podem sair da pista e fazer coisas que você não queria/precisava e eu esc com bastante frequência. Também não aprendi a ser produtivo usando mais de uma instância em paralelo - já parece difícil o suficiente. Ainda não descobri uma boa maneira de manter CLAUDE[.]md bom ou atualizado. Muitas vezes tenho que fazer uma passagem de "limpezas" para o estilo de codificação ou questões de gosto de código. Por exemplo, eles são muito defensivos e muitas vezes usam demais as instruções try / catch, muitas vezes complicam demais as abstrações, sobrecarregam o código (por exemplo, uma construção aninhada if-the-else quando uma compreensão de lista ou um one-liner if-then-else funcionaria), ou eles duplicam pedaços de código em vez de criar uma boa função auxiliar, coisas assim ... eles basicamente não têm paladar. Eles são indispensáveis nos casos em que entro em um território mais de codificação de vibração, onde estou menos familiarizado (por exemplo, escrevendo um pouco de ferrugem recentemente, ou comandos sql, ou qualquer outra coisa que eu tenha feito menos antes). Eu também tentei o CC para me ensinar coisas junto com o código que estava escrevendo, mas isso não funcionou - ele realmente quer apenas escrever código muito mais do que quer explicar qualquer coisa ao longo do caminho. Tentei fazer com que o CC fizesse o ajuste de hiperparâmetros, o que foi muito divertido. Eles também são muito úteis em todos os tipos de visualização personalizada única de baixo risco ou utilitários ou código de depuração que eu nunca escreveria de outra forma porque teria demorado muito. Por exemplo, o CC pode criar 1.000 linhas de visualização/código extensivo apenas para identificar um bug específico, que é excluído logo após encontrá-lo. É a era pós-escassez de código - você pode simplesmente criar e excluir milhares de linhas de código super personalizado e super efêmero agora, tudo bem, não é mais essa coisa preciosa e cara. A camada final de defesa é o GPT5 Pro, que eu uso para as coisas mais difíceis. Por exemplo, já aconteceu comigo algumas vezes agora que eu / Cursor / CC estamos todos presos em um bug por 10 minutos, mas quando eu copio e colo tudo no 5 Pro, ele dispara por 10 minutos, mas na verdade encontra um bug realmente sutil. É muito forte. Ele pode desenterrar todos os tipos de documentos e artigos esotéricos e tal. Eu também o usei para outras tarefas mais substanciais, por exemplo, sugestões sobre como limpar abstrações (resultados mistos, às vezes boas ideias, mas não todas), ou uma revisão completa da literatura sobre como as pessoas fazem isso ou aquilo e volta com bons recursos / indicadores relevantes. De qualquer forma, a codificação parece completamente aberta com possibilidades em vários "tipos" de codificação e, em seguida, várias ferramentas com seus prós / contras. É difícil evitar o sentimento de ansiedade por não estar na fronteira do que é coletivamente possível, daí a chuva aleatória de pensamentos de domingo e uma boa quantidade de curiosidade sobre o que os outros estão encontrando.

Melhores

Classificação

Favoritos