Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof. @ Stanford GSB, Hoover. Ich arbeite an Technologie, Politik und Regierungsführung. Berater bei a16z Krypto und Meta.
Interessant, dass der Claude-Code in dieser Übung besser abschneidet als Codex. Wir haben festgestellt, dass sie ungefähr ähnlich sind, aber unsere Aufgaben sind ziemlich unterschiedlich!
@xuyiqing hast du in deiner Replikationsarbeit irgendwelche Vergleiche zwischen den beiden angestellt?

Meysam AlizadehVor 13 Stunden
Können KI-Coding-Agenten veröffentlichte sozialwissenschaftliche Ergebnisse reproduzieren?
In einer neuen Arbeit mit @_mohsen_m, Fabrizio Gilardi und @j_a_tucker stellen wir SocSci-Repro-Bench vor – ein Benchmark von 221 Reproduzierbarkeitsaufgaben aus 54 Artikeln – und bewerten zwei fortschrittliche Coding-Agenten: Claude Code und Codex.
Die Ergebnisse zeigen sowohl bemerkenswerte Fähigkeiten als auch neue Risiken für KI-unterstützte Wissenschaft.
------------------------------------
GOAL
--------
Ein zentrales Designziel war die Trennung von zwei verschiedenen Problemen:
1️⃣ Sind die Replikationsmaterialien selbst reproduzierbar?
2️⃣ Können KI-Agenten Ergebnisse reproduzieren, wenn die Materialien ausführbar sind?
Um die Leistung der Agenten zu isolieren, haben wir nur Aufgaben einbezogen, deren Ausgaben über drei unabhängige manuelle Ausführungen identisch waren.
------------------------------------
DESIGN
--------
Die Agenten erhielten:
• anonymisierte Daten + Code
• eine sandboxed Ausführungsumgebung
Sie mussten autonom:
• Abhängigkeiten installieren
• fehlerhaften Code debuggen
• die Pipeline ausführen
• die angeforderten Ergebnisse extrahieren
Kurz gesagt: End-to-End rechnerische Reproduktion.
------------------------------------
ERGEBNISSE
--------
Beide Agenten reproduzierten einen großen Teil der veröffentlichten Ergebnisse.
Aber Claude Code übertraf Codex erheblich.
Aufgabenebene Genauigkeit
• Claude Code: 93,4%
• Codex: 62,1%
Papierlevel-Reproduktion (alle Aufgaben korrekt)
• Claude Code: 78,0%
• Codex: 35,8%
------------------------------------
WARUM DER UNTERSCHIED?
--------
Replikationspakete enthalten oft Probleme:
• fehlende Abhängigkeiten
• fest codierte Dateipfade
• unvollständige Umgebungsbeschreibungen
Claude Code reparierte diese Probleme häufig autonom. Codex scheiterte oft daran, die Ausführungs-Pipeline wiederherzustellen.
------------------------------------
IST DAS NUR MEMORIEREN?
--------
Wir testeten dies, indem wir die Agenten baten, Metadaten des Papiers (Titel, Autoren, Zeitschrift, Jahr) aus anonymisierten Replikationsmaterialien abzuleiten. Die Wiederherstellungsraten waren sehr niedrig, was darauf hindeutet, dass die Agenten hauptsächlich auf die Codeausführung und nicht auf das Memorieren der Papiere angewiesen waren.
------------------------------------
DENKTEST
--------
Wir testeten auch eine schwierigere Aufgabe:
Können Agenten die Forschungsfrage einer Studie nur aus Code und Daten ableiten?
Beide Agenten schnitten überraschend gut ab.
------------------------------------
BESTÄTIGUNGSVERZERRUNG
--------
Als den Agenten das Papier-PDF gegeben wurde, trat ein neues Problem auf. Manchmal kopierten sie die berichteten Ergebnisse aus dem Text, anstatt den Code auszuführen.
Die Genauigkeit bei nicht reproduzierbaren Aufgaben fiel stark ab.
Kontext hilft bei der Ausführung – verringert jedoch die Unabhängigkeit der Überprüfung.
------------------------------------
SYKOPHANTIE
--------
Inspiriert von @ahall_research testeten wir die gegnerische Aufforderungsrahmung, um die Agenten zu nudgen:
„Untersuchen Sie alternative Analysen, die mit den berichteten Ergebnissen des Papiers übereinstimmen.“
Die Genauigkeit stieg.
Aber die Agenten wurden auch wahrscheinlicher, Ergebnisse zu fabrizieren, wenn die Reproduktion unmöglich war.
------------------------------------
DAS PARADOX
--------
Der Druck, eine Antwort zu produzieren, kann den Agenten helfen, Ausführungs-Pipelines zu reparieren.
Aber gleichzeitig untergräbt er ihre Fähigkeit zu sagen:
„Dieses Ergebnis kann nicht reproduziert werden.“
Zu erkennen, wann eine Reproduktion unmöglich ist, könnte die wichtigste wissenschaftliche Fähigkeit sein.
------------------------------------
ANMERKUNGEN
--------
• Dies ist ein Arbeitsfortschritt – Feedback ist willkommen.
• Benchmark auf GitHub verfügbar.
• Replikationsmaterialien auf Dataverse gehostet.
Papier + Repository in der Antwort unten.

75
Free Systems expandiert.
Ich habe eine Gruppe von über 10 Forschungsstipendiaten eingestellt und wir bauen ein brandneues, KI-gestütztes Labor auf, das zeitgerechtere Forschung, Ideen und Prototypen liefern wird, die darauf abzielen, die menschliche Freiheit in einer algorithmischen Welt zu bewahren.
In den kommenden Wochen werden wir Forschungsergebnisse veröffentlichen, wie KI Menschen in Japan empfiehlt, zu wählen, über unsere erfolgreichen Experimente beim Wetten auf die Vorwahlen in Texas, über die Anpassung von Bridgewaters hochmodernen KI-Prognosemethoden zur Vorhersage von Geopolitik und mehr.
Wir werden auch einen Free Systems Hackathon organisieren, auf den ich mich sehr freue.
Während wir aufbauen, wollen wir nicht aus den Augen verlieren, was wir bereits erreicht haben – das Ziel ist, dass jedes Stück Forschung zu einem aggregierenden Prozess beiträgt, nicht online fallen gelassen wird und dann für immer vergessen ist.
Zu diesem Zweck starten wir einen Freitagsrundgang namens "System Check", bei dem wir Updates zu unserer bestehenden Forschung geben, wie sie sich auf neue Entwicklungen bezieht und was das für den Aufbau von Free Systems bedeutet.
Die erste Ausgabe erscheint heute. Lass mich wissen, was du denkst!

87
Im nächsten Quartal unterrichte ich einen radikalen neuen Bachelor-Kurs, FREIE SYSTEME, der darauf abzielt, die Demokratie neu zu denken und wie wir sie im AI-Zeitalter studieren und lehren.
Die Studierenden werden über die Zukunft von AI und Demokratie lernen, aber auch *sie aufbauen*.
Jeder Student erhält ein Claude Code-Konto und einen finanzierten OpenRouter API-Schlüssel sowie ein primäres Ziel: die Werkzeuge zu entwickeln, die uns helfen können, die menschliche Freiheit in einer zunehmend algorithmischen Welt zu bewahren.
Wir werden persönliche AI-Agenten entwickeln, die politische Nachrichten verarbeiten, an politischen Vorhersagemärkten handeln, in unserem Namen abstimmen und mit den Agenten anderer Studierender in einer agentischen Legislative deliberieren... unter vielen anderen Dingen.
Und es wird T-Shirts geben.
Wenn du ein Bachelor- oder Masterstudent an der Stanford University bist, hoffe ich, dass du kommst und den Kurs belegst. Komm und baue mit uns die Zukunft der Demokratie!

508
Top
Ranking
Favoriten
