Introductie van Code Review Bench v0:
De eerste onafhankelijke benchmark voor codebeoordeling. 200.000+ PR's. Onpartijdig. Volledig OSS. Dagelijks bijgewerkt.
Prestaties van de tool in het kort 🧵👇
Met: @augmentcode @baz_scm @claudeai @coderabbitai @cursor @GeminiApp @github @graphite @greptile @kilocode @OpenAIDevs @propelcode @QodoAI
Aankondiging van ARES - onze open-source Agentic Research and Evaluation Suite.
ARES is opgebouwd rond 3 pijlers (👇 zie de thread) om versterkend leren voor code-agenten eenvoudig te maken.
We hebben ook ontdekt dat het ongelooflijk nuttig is voor ons eigen mech interp onderzoek.
$1.000.000 om te begrijpen hoe LLM's code schrijven.
Aankondiging: De Martian Interpretability Challenge.
Het begrijpen van de innerlijke werking van LLM's is de grootste wetenschappelijke uitdaging van onze tijd,. Laten we het oplossen.
Aanmelden hier:
🧵👇