Présentation de Code Review Bench v0 :
Le premier benchmark indépendant de révision de code. Plus de 200 000 PRs. Neutre. Entièrement OSS. Mis à jour quotidiennement.
Points forts de la performance de l'outil 🧵👇
Avec : @augmentcode @baz_scm @claudeai @coderabbitai @cursor @GeminiApp @github @graphite @greptile @kilocode @OpenAIDevs @propelcode @QodoAI
Annonce d'ARES - notre suite de recherche et d'évaluation Agentic en open-source.
ARES est construit autour de 3 piliers (👇 voir le fil) pour faciliter l'apprentissage par renforcement pour les agents de code.
Nous avons également constaté qu'il est incroyablement utile pour notre propre recherche en interprétation mécanique.
1 000 000 $ pour comprendre comment les LLM écrivent du code.
Annonce : Le Défi d'Interprétabilité Martien.
Comprendre le fonctionnement interne des LLM est le plus grand défi scientifique de notre époque. Résolvons-le.
Postulez ici :
🧵👇