Apresentando Code Review Bench v0:
O primeiro benchmark independente de revisão de código. 200.000+ recordes pessoais. Imparcial. Totalmente OSS. Atualizado diariamente.
Destaques 🧵👇 de desempenho da ferramenta
Com a participação de: @augmentcode @baz_scm @claudeai @coderabbitai @cursor @GeminiApp @github @graphite @greptile @kilocode @OpenAIDevs @propelcode @QodoAI
Anunciando o ARES - nossa suíte de pesquisa e avaliação agente de código aberto.
O ARES é construído em torno de 3 pilares (👇 veja o tópico) para facilitar o aprendizado por reforço para agentes de código.
Também achamos que é incrivelmente útil para nossa própria pesquisa de interpretação mecânica.
$1.000.000 para entender como LLMs escrevem código.
Anunciando: O Desafio de Interpretabilidade Marciano.
Compreender o funcionamento interno dos LLMs é o maior desafio científico da nossa época. Vamos resolver isso.
Candidate-se aqui:
🧵👇