Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Voivatko tekoälykoodaajat toistaa julkaistuja yhteiskuntatieteellisiä havaintoja?
Uudessa työssä @_mohsen_m:n, Fabrizio Gilardin ja @j_a_tucker:n kanssa esittelemme SocSci-Repro-Benchin — 221 toistettavuustehtävän vertailun 54 artikkelista — ja arvioimme kahta rajakoodausagenttia: Claude Codea ja Codexia.
Tulokset paljastavat sekä merkittäviä kykyjä että uusia riskejä tekoälyavusteisessa tieteessä.
------------------------------------
TAVOITE
--------
Keskeinen suunnittelutavoite oli erottaa kaksi erilaista ongelmaa:
1️⃣ Ovatko replikaatiomateriaalit itsessään toistettavissa?
2️⃣ Voivatko tekoälyagentit toistaa tuloksia, kun materiaalit ovat suoritettavissa?
Agentin suorituskyvyn eristämiseksi sisällytimme vain tehtävät, joiden tulokset olivat identtiset kolmessa itsenäisessä manuaalisessa suorituksessa.
------------------------------------
SUUNNITTELU
--------
Saaneet agentit:
• anonymisoitu data + koodi
• hiekkalaatikko-suoritusympäristö
Heidän täytyi tehdä itsenäisesti:
• asenna riippuvuuksia
• virheenkorjaus rikkinäisen koodin kanssa
• suorittaa putki
• poimia pyydetyt tulokset
Lyhyesti: kokonaisvaltainen laskennallinen toisto.
------------------------------------
TULOKSET...

Johtavat
Rankkaus
Suosikit
