Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Meysam Alizadeh
Forschungsassistent @oiioxford
Frühere Postdocs @IPZ_ch, @Kennedy_School, @PrincetonSPIA, @IULuddy
Computational Social Science, KI für Wissenschaften
Können KI-Coding-Agenten veröffentlichte sozialwissenschaftliche Ergebnisse reproduzieren?
In einer neuen Arbeit mit @_mohsen_m, Fabrizio Gilardi und @j_a_tucker stellen wir SocSci-Repro-Bench vor – ein Benchmark von 221 Reproduzierbarkeitsaufgaben aus 54 Artikeln – und bewerten zwei fortschrittliche Coding-Agenten: Claude Code und Codex.
Die Ergebnisse zeigen sowohl bemerkenswerte Fähigkeiten als auch neue Risiken für KI-unterstützte Wissenschaft.
------------------------------------
GOAL
--------
Ein zentrales Designziel war die Trennung von zwei verschiedenen Problemen:
1️⃣ Sind die Replikationsmaterialien selbst reproduzierbar?
2️⃣ Können KI-Agenten Ergebnisse reproduzieren, wenn die Materialien ausführbar sind?
Um die Leistung der Agenten zu isolieren, haben wir nur Aufgaben einbezogen, deren Ausgaben über drei unabhängige manuelle Ausführungen identisch waren.
------------------------------------
DESIGN
--------
Die Agenten erhielten:
• anonymisierte Daten + Code
• eine sandboxed Ausführungsumgebung
Sie mussten autonom:
• Abhängigkeiten installieren
• fehlerhaften Code debuggen
• die Pipeline ausführen
• die angeforderten Ergebnisse extrahieren
Kurz gesagt: End-to-End rechnerische Reproduktion.
------------------------------------
ERGEBNISSE
--------
Beide Agenten reproduzierten einen großen Teil der veröffentlichten Ergebnisse.
Aber Claude Code übertraf Codex erheblich.
Aufgabenebene Genauigkeit
• Claude Code: 93,4%
• Codex: 62,1%
Papierlevel-Reproduktion (alle Aufgaben korrekt)
• Claude Code: 78,0%
• Codex: 35,8%
------------------------------------
WARUM DER UNTERSCHIED?
--------
Replikationspakete enthalten oft Probleme:
• fehlende Abhängigkeiten
• fest codierte Dateipfade
• unvollständige Umgebungsbeschreibungen
Claude Code reparierte diese Probleme häufig autonom. Codex scheiterte oft daran, die Ausführungs-Pipeline wiederherzustellen.
------------------------------------
IST DAS NUR MEMORIEREN?
--------
Wir testeten dies, indem wir die Agenten baten, Metadaten des Papiers (Titel, Autoren, Zeitschrift, Jahr) aus anonymisierten Replikationsmaterialien abzuleiten. Die Wiederherstellungsraten waren sehr niedrig, was darauf hindeutet, dass die Agenten hauptsächlich auf die Codeausführung und nicht auf das Memorieren der Papiere angewiesen waren.
------------------------------------
DENKTEST
--------
Wir testeten auch eine schwierigere Aufgabe:
Können Agenten die Forschungsfrage einer Studie nur aus Code und Daten ableiten?
Beide Agenten schnitten überraschend gut ab.
------------------------------------
BESTÄTIGUNGSVERZERRUNG
--------
Als den Agenten das Papier-PDF gegeben wurde, trat ein neues Problem auf. Manchmal kopierten sie die berichteten Ergebnisse aus dem Text, anstatt den Code auszuführen.
Die Genauigkeit bei nicht reproduzierbaren Aufgaben fiel stark ab.
Kontext hilft bei der Ausführung – verringert jedoch die Unabhängigkeit der Überprüfung.
------------------------------------
SYKOPHANTIE
--------
Inspiriert von @ahall_research testeten wir die gegnerische Aufforderungsrahmung, um die Agenten zu nudgen:
„Untersuchen Sie alternative Analysen, die mit den berichteten Ergebnissen des Papiers übereinstimmen.“
Die Genauigkeit stieg.
Aber die Agenten wurden auch wahrscheinlicher, Ergebnisse zu fabrizieren, wenn die Reproduktion unmöglich war.
------------------------------------
DAS PARADOX
--------
Der Druck, eine Antwort zu produzieren, kann den Agenten helfen, Ausführungs-Pipelines zu reparieren.
Aber gleichzeitig untergräbt er ihre Fähigkeit zu sagen:
„Dieses Ergebnis kann nicht reproduziert werden.“
Zu erkennen, wann eine Reproduktion unmöglich ist, könnte die wichtigste wissenschaftliche Fähigkeit sein.
------------------------------------
ANMERKUNGEN
--------
• Dies ist ein Arbeitsfortschritt – Feedback ist willkommen.
• Benchmark auf GitHub verfügbar.
• Replikationsmaterialien auf Dataverse gehostet.
Papier + Repository in der Antwort unten.

116
Top
Ranking
Favoriten
