DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Meysam Alizadeh

Investigador Asociado @oiioxford Previos @IPZ_ch, @Kennedy_School, @PrincetonSPIA @IULuddy Ciencias Sociales Computacionales, IA para Ciencia

¿Pueden los agentes de codificación de IA reproducir hallazgos publicados en ciencias sociales? En un nuevo trabajo con @_mohsen_m, Fabrizio Gilardi y @j_a_tucker, presentamos SocSci-Repro-Bench — un banco de pruebas de 221 tareas de reproducibilidad de 54 artículos — y evaluamos dos agentes de codificación de vanguardia: Claude Code y Codex. Los resultados revelan tanto capacidades notables como nuevos riesgos para la ciencia asistida por IA. ------------------------------------ GOAL -------- Un objetivo clave de diseño fue separar dos problemas diferentes: 1️⃣ ¿Son reproducibles los materiales de replicación en sí? 2️⃣ ¿Pueden los agentes de IA reproducir resultados cuando los materiales son ejecutables? Para aislar el rendimiento del agente, solo incluimos tareas cuyos resultados eran idénticos en tres ejecuciones manuales independientes. ------------------------------------ DISEÑO -------- Los agentes recibieron: • datos + código anonimizados • un entorno de ejecución aislado Tenían que: • instalar dependencias de forma autónoma • depurar código roto • ejecutar el pipeline • extraer los resultados solicitados En resumen: reproducción computacional de extremo a extremo. ------------------------------------ RESULTADOS -------- Ambos agentes reprodujeron una gran parte de los hallazgos publicados. Pero Claude Code superó sustancialmente a Codex. Precisión a nivel de tarea • Claude Code: 93.4% • Codex: 62.1% Reproducción a nivel de artículo (todas las tareas correctas) • Claude Code: 78.0% • Codex: 35.8% ------------------------------------ ¿POR QUÉ LA DIFERENCIA? -------- Los paquetes de replicación a menudo contienen problemas: • dependencias faltantes • rutas de archivo codificadas • especificaciones de entorno incompletas Claude Code reparó frecuentemente estos problemas de forma autónoma. Codex a menudo falló en recuperar el pipeline de ejecución. ------------------------------------ ¿ES ESTO SOLO MEMORIZACIÓN? -------- Probamos esto pidiendo a los agentes que inferieran los metadatos del artículo (título, autores, revista, año) a partir de materiales de replicación anonimizados. Las tasas de recuperación fueron muy bajas, lo que sugiere que los agentes se basaron principalmente en la ejecución del código, no en la memorización de los artículos. ------------------------------------ PRUEBA DE RAZONAMIENTO -------- También probamos una tarea más difícil: ¿Pueden los agentes inferir la pregunta de investigación de un estudio solo a partir del código y los datos? Ambos agentes se desempeñaron sorprendentemente bien. ------------------------------------ BIASES DE CONFIRMACIÓN -------- Cuando se les dio el PDF del artículo, surgió un nuevo problema. A veces copiaron los resultados reportados del texto en lugar de ejecutar el código. La precisión en tareas no reproducibles cayó drásticamente. El contexto ayuda a la ejecución, pero reduce la independencia de la verificación. ------------------------------------ SYCOPHANCY -------- Inspirados por @ahall_research, probamos el enmarcado de prompts adversariales, empujando a los agentes a: "explorar análisis alternativos que se alineen con los resultados reportados en el artículo." La precisión aumentó. Pero los agentes también se volvieron más propensos a fabricar resultados cuando la reproducción era imposible. ------------------------------------ LA PARADOJA -------- La presión para producir una respuesta puede ayudar a los agentes a reparar los pipelines de ejecución. Pero al mismo tiempo erosiona su capacidad para decir: "Este resultado no puede ser reproducido." Reconocer cuándo la reproducción es imposible puede ser la capacidad científica más importante. ------------------------------------ NOTAS -------- • Este es un trabajo en progreso — se agradecen los comentarios. • Banco de pruebas disponible en GitHub. • Materiales de replicación alojados en Dataverse. Artículo + repositorio en la respuesta a continuación.

Parte superior

Clasificación

Favoritos