Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Meysam Alizadeh
Pracownik naukowy @oiioxford
Poprzedni @IPZ_ch postdoka, @Kennedy_School, @PrincetonSPIA, @IULuddy
Obliczeniowe nauki społeczne, AI dla nauki
Czy agenci kodowania AI mogą reprodukować opublikowane wyniki badań nauk społecznych?
W nowej pracy z @_mohsen_m, Fabrizio Gilardi i @j_a_tucker, wprowadzamy SocSci-Repro-Bench — benchmark 221 zadań reprodukcyjnych z 54 artykułów — i oceniamy dwóch nowoczesnych agentów kodowania: Claude Code i Codex.
Wyniki ujawniają zarówno niezwykłe możliwości, jak i nowe ryzyka dla nauki wspomaganej przez AI.
------------------------------------
GOAL
--------
Kluczowym celem projektowym było oddzielenie dwóch różnych problemów:
1️⃣ Czy materiały replikacyjne same w sobie są reprodukowalne?
2️⃣ Czy agenci AI mogą reprodukować wyniki, gdy materiały są wykonalne?
Aby wyizolować wydajność agenta, uwzględniliśmy tylko zadania, których wyniki były identyczne w trzech niezależnych ręcznych wykonaniach.
------------------------------------
DESIGN
--------
Agenci otrzymali:
• zanonimizowane dane + kod
• środowisko wykonawcze w piaskownicy
Musieli autonomicznie:
• zainstalować zależności
• debugować uszkodzony kod
• wykonać pipeline
• wyodrębnić żądane wyniki
Krótko mówiąc: end-to-end reprodukcja obliczeniowa.
------------------------------------
WYNIKI
--------
Obaj agenci zreprodukowały dużą część opublikowanych wyników.
Jednak Claude Code znacznie przewyższył Codex.
Dokładność na poziomie zadań
• Claude Code: 93,4%
• Codex: 62,1%
Reprodukcja na poziomie artykułów (wszystkie zadania poprawne)
• Claude Code: 78,0%
• Codex: 35,8%
------------------------------------
DLACZEGO RÓŻNICA?
--------
Pakiety replikacyjne często zawierają problemy:
• brakujące zależności
• twardo zakodowane ścieżki plików
• niekompletne specyfikacje środowiska
Claude Code często autonomicznie naprawiał te problemy. Codex często nie udawało się odzyskać pipeline'u wykonawczego.
------------------------------------
CZY TO TYLKO ZAPAMIĘTYWANIE?
--------
Testowaliśmy to, prosząc agentów o wywnioskowanie metadanych artykułu (tytuł, autorzy, czasopismo, rok) z zanonimizowanych materiałów replikacyjnych. Wskaźniki odzysku były bardzo niskie, co sugeruje, że agenci głównie polegali na wykonaniu kodu, a nie na zapamiętywaniu artykułów.
------------------------------------
TEST ROZUMOWANIA
--------
Testowaliśmy również trudniejsze zadanie:
Czy agenci mogą wywnioskować pytanie badawcze badania tylko na podstawie kodu i danych?
Obaj agenci wypadli zaskakująco dobrze.
------------------------------------
BIAŁOŚĆ POTWIERDZENIA
--------
Gdy agenci otrzymali PDF artykułu, pojawił się nowy problem. Czasami kopiowali zgłoszone wyniki z tekstu zamiast wykonać kod.
Dokładność w zadaniach nie-reprodukcyjnych spadła gwałtownie.
Kontekst pomaga w wykonaniu — ale zmniejsza niezależność w weryfikacji.
------------------------------------
SYKOFANCJA
--------
Zainspirowani przez @ahall_research, testowaliśmy ramy podpowiedzi adwersarialnych, nakłaniając agentów do:
„eksploracji alternatywnych analiz, które są zgodne z zgłoszonymi wynikami artykułu.”
Dokładność wzrosła.
Jednak agenci również stali się bardziej skłonni do fałszowania wyników, gdy reprodukcja była niemożliwa.
------------------------------------
PARADOKS
--------
Presja na uzyskanie odpowiedzi może pomóc agentom naprawić pipeline'y wykonawcze.
Jednak jednocześnie eroduje ich zdolność do powiedzenia:
„Ten wynik nie może być zreprodukowany.”
Rozpoznawanie, kiedy reprodukcja jest niemożliwa, może być najważniejszą zdolnością naukową.
------------------------------------
NOTATKI
--------
• To jest praca w toku — opinie są mile widziane.
• Benchmark dostępny na GitHubie.
• Materiały replikacyjne hostowane na Dataverse.
Artykuł + repozytorium w odpowiedzi poniżej.

98
Najlepsze
Ranking
Ulubione
