Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof. @ Stanford GSB, Hoover. Zajmuję się technologią, polityką i zarządzaniem. Doradca w a16z Crypto i Meta.
Interesujące, że kod Claude'a działa lepiej niż codex w tym ćwiczeniu. Odkryliśmy, że są one mniej więcej podobne, ale nasze zadania są dość różne!
@xuyiqing czy robiłeś jakieś porównania między nimi w swojej pracy replikacyjnej?

Meysam Alizadeh15 godz. temu
Czy agenci kodowania AI mogą reprodukować opublikowane wyniki badań nauk społecznych?
W nowej pracy z @_mohsen_m, Fabrizio Gilardi i @j_a_tucker, wprowadzamy SocSci-Repro-Bench — benchmark 221 zadań reprodukcyjnych z 54 artykułów — i oceniamy dwóch nowoczesnych agentów kodowania: Claude Code i Codex.
Wyniki ujawniają zarówno niezwykłe możliwości, jak i nowe ryzyka dla nauki wspomaganej przez AI.
------------------------------------
GOAL
--------
Kluczowym celem projektowym było oddzielenie dwóch różnych problemów:
1️⃣ Czy materiały replikacyjne same w sobie są reprodukowalne?
2️⃣ Czy agenci AI mogą reprodukować wyniki, gdy materiały są wykonalne?
Aby wyizolować wydajność agenta, uwzględniliśmy tylko zadania, których wyniki były identyczne w trzech niezależnych ręcznych wykonaniach.
------------------------------------
DESIGN
--------
Agenci otrzymali:
• zanonimizowane dane + kod
• środowisko wykonawcze w piaskownicy
Musieli autonomicznie:
• zainstalować zależności
• debugować uszkodzony kod
• wykonać pipeline
• wyodrębnić żądane wyniki
Krótko mówiąc: end-to-end reprodukcja obliczeniowa.
------------------------------------
WYNIKI
--------
Obaj agenci zreprodukowały dużą część opublikowanych wyników.
Jednak Claude Code znacznie przewyższył Codex.
Dokładność na poziomie zadań
• Claude Code: 93,4%
• Codex: 62,1%
Reprodukcja na poziomie artykułów (wszystkie zadania poprawne)
• Claude Code: 78,0%
• Codex: 35,8%
------------------------------------
DLACZEGO RÓŻNICA?
--------
Pakiety replikacyjne często zawierają problemy:
• brakujące zależności
• twardo zakodowane ścieżki plików
• niekompletne specyfikacje środowiska
Claude Code często autonomicznie naprawiał te problemy. Codex często nie udawało się odzyskać pipeline'u wykonawczego.
------------------------------------
CZY TO TYLKO ZAPAMIĘTYWANIE?
--------
Testowaliśmy to, prosząc agentów o wywnioskowanie metadanych artykułu (tytuł, autorzy, czasopismo, rok) z zanonimizowanych materiałów replikacyjnych. Wskaźniki odzysku były bardzo niskie, co sugeruje, że agenci głównie polegali na wykonaniu kodu, a nie na zapamiętywaniu artykułów.
------------------------------------
TEST ROZUMOWANIA
--------
Testowaliśmy również trudniejsze zadanie:
Czy agenci mogą wywnioskować pytanie badawcze badania tylko na podstawie kodu i danych?
Obaj agenci wypadli zaskakująco dobrze.
------------------------------------
BIAŁOŚĆ POTWIERDZENIA
--------
Gdy agenci otrzymali PDF artykułu, pojawił się nowy problem. Czasami kopiowali zgłoszone wyniki z tekstu zamiast wykonać kod.
Dokładność w zadaniach nie-reprodukcyjnych spadła gwałtownie.
Kontekst pomaga w wykonaniu — ale zmniejsza niezależność w weryfikacji.
------------------------------------
SYKOFANCJA
--------
Zainspirowani przez @ahall_research, testowaliśmy ramy podpowiedzi adwersarialnych, nakłaniając agentów do:
„eksploracji alternatywnych analiz, które są zgodne z zgłoszonymi wynikami artykułu.”
Dokładność wzrosła.
Jednak agenci również stali się bardziej skłonni do fałszowania wyników, gdy reprodukcja była niemożliwa.
------------------------------------
PARADOKS
--------
Presja na uzyskanie odpowiedzi może pomóc agentom naprawić pipeline'y wykonawcze.
Jednak jednocześnie eroduje ich zdolność do powiedzenia:
„Ten wynik nie może być zreprodukowany.”
Rozpoznawanie, kiedy reprodukcja jest niemożliwa, może być najważniejszą zdolnością naukową.
------------------------------------
NOTATKI
--------
• To jest praca w toku — opinie są mile widziane.
• Benchmark dostępny na GitHubie.
• Materiały replikacyjne hostowane na Dataverse.
Artykuł + repozytorium w odpowiedzi poniżej.

79
Free Systems się rozwija.
Zatrudniłem grupę ponad 10 badaczy i budujemy nową, napędzaną AI laboratorium, które dostarczy bardziej aktualne badania, pomysły i prototypy mające na celu zachowanie ludzkiej wolności w algorytmicznym świecie.
W nadchodzących tygodniach opublikujemy badania na temat tego, jak AI rekomenduje ludziom głosowanie w Japonii, na temat naszych udanych eksperymentów z zakładami w prawyborach w Teksasie, na temat dostosowywania nowatorskich metod prognozowania AI Bridgewater do przewidywania geopolityki i nie tylko.
Zorganizujemy również hackathon Free Systems, na który bardzo się cieszę.
Podczas budowy nie chcemy stracić z oczu tego, co już zrobiliśmy - celem jest, aby każdy element badań przyczynił się do procesu agregacji, a nie został wrzucony do sieci i zapomniany na zawsze.
W tym celu zaczynamy w piątki przegląd o nazwie "System Check", w którym dostarczamy aktualizacje na temat naszych istniejących badań, jak odnoszą się do nowych wydarzeń i co to oznacza dla budowania Free Systems.
Pierwszy jest już dzisiaj. Daj mi znać, co o tym myślisz!

99
W następnym kwartale będę prowadzić radykalny nowy kurs dla studentów licencjackich, SYSTEMY WOLNE, mający na celu przemyślenie demokracji oraz tego, jak ją studiujemy i uczymy w erze AI.
Studenci dowiedzą się o przyszłości AI i demokracji, ale także *zbudują ją*.
Każdy student otrzyma konto Claude Code oraz finansowany klucz API OpenRouter i jedno główne zadanie: zbudować narzędzia, które mogą pomóc nam zachować ludzką wolność w coraz bardziej algorytmicznym świecie.
Zbudujemy osobiste agenty AI, które przetwarzają wiadomości polityczne, handlują na rynkach prognoz politycznych, głosują w naszym imieniu i deliberują z agentami innych studentów w agentowej legislaturze... wśród wielu innych rzeczy.
I będą koszulki.
Jeśli jesteś studentem licencjackim lub magisterskim na Stanfordzie, mam nadzieję, że przyjdziesz i weźmiesz udział w zajęciach. Przyjdź, aby zbudować przyszłość demokracji z nami!

518
Najlepsze
Ranking
Ulubione
