Presentamos Code Review Bench v0:
El primer benchmark independiente de revisión de código. 200.000+ marcas personales. Imparcial. Totalmente OSS. Actualizado a diario.
Aspectos destacados 🧵👇 del rendimiento de la herramienta
Con la participación de: @augmentcode @baz_scm @claudeai @coderabbitai @cursor @GeminiApp @github @graphite @greptile @kilocode @OpenAIDevs @propelcode @QodoAI
Anunciando ARES: nuestra suite de investigación y evaluación agente de código abierto.
ARES está construido alrededor de 3 pilares (👇 ver el hilo) para facilitar el aprendizaje por refuerzo para agentes de código.
También lo hemos encontrado increíblemente útil para nuestra propia investigación de interpretación mecánica.
1.000.000 de dólares para entender cómo escriben código los LLM.
Anuncio: El reto de interpretabilidad marciano.
Comprender el funcionamiento interno de los LLMs es el mayor desafío científico de nuestra época. Vamos a solucionarlo.
Solicita aquí:
🧵👇