Знайомимося з Code Review Bench v0:
Перший незалежний тест огляду коду. 200 000+ особистих рекордів. Неупереджено. Повністю OSS. Оновлюється щодня.
Основні 🧵👇 характеристики продуктивності інструментів
У ролях: @augmentcode @baz_scm @claudeai @coderabbitai @cursor @GeminiApp @github @graphite @greptile @kilocode @OpenAIDevs @propelcode @QodoAI
Оголошуємо про ARES — наш відкритий пакет агентних досліджень і оцінки.
ARES побудований навколо трьох стовпів (👇 див. тему), щоб полегшити навчання підкріплення для кодових агентів.
Ми також виявили, що це надзвичайно корисно для наших власних досліджень інтерпретації мехів.
$1,000,000, щоб зрозуміти, як LLM пишуть код.
Оголошення: Випробування на інтерпретацію Марса.
Розуміння внутрішньої роботи LLM — це найбільший науковий виклик нашого часу. Давайте розв'яжемо це.
Подайте заявку тут:
🧵👇