Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Andy Hall

Prof. @ Stanford GSB, Hoover. Zajmuję się technologią, polityką i zarządzaniem. Doradca w a16z Crypto i Meta.

Interesujące, że kod Claude'a działa lepiej niż codex w tym ćwiczeniu. Odkryliśmy, że są one mniej więcej podobne, ale nasze zadania są dość różne! @xuyiqing czy robiłeś jakieś porównania między nimi w swojej pracy replikacyjnej?

Czy agenci kodowania AI mogą reprodukować opublikowane wyniki badań nauk społecznych? W nowej pracy z @_mohsen_m, Fabrizio Gilardi i @j_a_tucker, wprowadzamy SocSci-Repro-Bench — benchmark 221 zadań reprodukcyjnych z 54 artykułów — i oceniamy dwóch nowoczesnych agentów kodowania: Claude Code i Codex. Wyniki ujawniają zarówno niezwykłe możliwości, jak i nowe ryzyka dla nauki wspomaganej przez AI. ------------------------------------ GOAL -------- Kluczowym celem projektowym było oddzielenie dwóch różnych problemów: 1️⃣ Czy materiały replikacyjne same w sobie są reprodukowalne? 2️⃣ Czy agenci AI mogą reprodukować wyniki, gdy materiały są wykonalne? Aby wyizolować wydajność agenta, uwzględniliśmy tylko zadania, których wyniki były identyczne w trzech niezależnych ręcznych wykonaniach. ------------------------------------ DESIGN -------- Agenci otrzymali: • zanonimizowane dane + kod • środowisko wykonawcze w piaskownicy Musieli autonomicznie: • zainstalować zależności • debugować uszkodzony kod • wykonać pipeline • wyodrębnić żądane wyniki Krótko mówiąc: end-to-end reprodukcja obliczeniowa. ------------------------------------ WYNIKI -------- Obaj agenci zreprodukowały dużą część opublikowanych wyników. Jednak Claude Code znacznie przewyższył Codex. Dokładność na poziomie zadań • Claude Code: 93,4% • Codex: 62,1% Reprodukcja na poziomie artykułów (wszystkie zadania poprawne) • Claude Code: 78,0% • Codex: 35,8% ------------------------------------ DLACZEGO RÓŻNICA? -------- Pakiety replikacyjne często zawierają problemy: • brakujące zależności • twardo zakodowane ścieżki plików • niekompletne specyfikacje środowiska Claude Code często autonomicznie naprawiał te problemy. Codex często nie udawało się odzyskać pipeline'u wykonawczego. ------------------------------------ CZY TO TYLKO ZAPAMIĘTYWANIE? -------- Testowaliśmy to, prosząc agentów o wywnioskowanie metadanych artykułu (tytuł, autorzy, czasopismo, rok) z zanonimizowanych materiałów replikacyjnych. Wskaźniki odzysku były bardzo niskie, co sugeruje, że agenci głównie polegali na wykonaniu kodu, a nie na zapamiętywaniu artykułów. ------------------------------------ TEST ROZUMOWANIA -------- Testowaliśmy również trudniejsze zadanie: Czy agenci mogą wywnioskować pytanie badawcze badania tylko na podstawie kodu i danych? Obaj agenci wypadli zaskakująco dobrze. ------------------------------------ BIAŁOŚĆ POTWIERDZENIA -------- Gdy agenci otrzymali PDF artykułu, pojawił się nowy problem. Czasami kopiowali zgłoszone wyniki z tekstu zamiast wykonać kod. Dokładność w zadaniach nie-reprodukcyjnych spadła gwałtownie. Kontekst pomaga w wykonaniu — ale zmniejsza niezależność w weryfikacji. ------------------------------------ SYKOFANCJA -------- Zainspirowani przez @ahall_research, testowaliśmy ramy podpowiedzi adwersarialnych, nakłaniając agentów do: „eksploracji alternatywnych analiz, które są zgodne z zgłoszonymi wynikami artykułu.” Dokładność wzrosła. Jednak agenci również stali się bardziej skłonni do fałszowania wyników, gdy reprodukcja była niemożliwa. ------------------------------------ PARADOKS -------- Presja na uzyskanie odpowiedzi może pomóc agentom naprawić pipeline'y wykonawcze. Jednak jednocześnie eroduje ich zdolność do powiedzenia: „Ten wynik nie może być zreprodukowany.” Rozpoznawanie, kiedy reprodukcja jest niemożliwa, może być najważniejszą zdolnością naukową. ------------------------------------ NOTATKI -------- • To jest praca w toku — opinie są mile widziane. • Benchmark dostępny na GitHubie. • Materiały replikacyjne hostowane na Dataverse. Artykuł + repozytorium w odpowiedzi poniżej.

Najlepsze

Ranking

Ulubione