Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Professori @ Stanford GSB, Hoover. Työskentelen teknologian, politiikan ja hallinnon parissa. Neuvonantaja a16z Cryptossa ja Metassa.
On mielenkiintoista, että Claude-koodi toimii tässä harjoituksessa paremmin kuin codex. Olemme huomanneet, että ne ovat suunnilleen samanlaisia, mutta tehtävämme ovat melko erilaisia!
@xuyiqing teitkö vertailuja näiden kahden välillä replikaatiotyössäsi?

Meysam Alizadeh16 tuntia sitten
Voivatko tekoälykoodaajat toistaa julkaistuja yhteiskuntatieteellisiä havaintoja?
Uudessa työssä @_mohsen_m:n, Fabrizio Gilardin ja @j_a_tucker:n kanssa esittelemme SocSci-Repro-Benchin — 221 toistettavuustehtävän vertailun 54 artikkelista — ja arvioimme kahta rajakoodausagenttia: Claude Codea ja Codexia.
Tulokset paljastavat sekä merkittäviä kykyjä että uusia riskejä tekoälyavusteisessa tieteessä.
------------------------------------
TAVOITE
--------
Keskeinen suunnittelutavoite oli erottaa kaksi erilaista ongelmaa:
1️⃣ Ovatko replikaatiomateriaalit itsessään toistettavissa?
2️⃣ Voivatko tekoälyagentit toistaa tuloksia, kun materiaalit ovat suoritettavissa?
Agentin suorituskyvyn eristämiseksi sisällytimme vain tehtävät, joiden tulokset olivat identtiset kolmessa itsenäisessä manuaalisessa suorituksessa.
------------------------------------
SUUNNITTELU
--------
Saaneet agentit:
• anonymisoitu data + koodi
• hiekkalaatikko-suoritusympäristö
Heidän täytyi tehdä itsenäisesti:
• asenna riippuvuuksia
• virheenkorjaus rikkinäisen koodin kanssa
• suorittaa putki
• poimia pyydetyt tulokset
Lyhyesti: kokonaisvaltainen laskennallinen toisto.
------------------------------------
TULOKSET
--------
Molemmat agentit toistivat suuren osan julkaistuista löydöksistä.
Mutta Claude Code suoriutui selvästi paremmin kuin Codex.
Tehtävätason tarkkuus
• Claude Code: 93,4 %
• Codex: 62,1 %
Paperitason jäljentäminen (kaikki tehtävät oikein)
• Claude-koodi: 78,0 %
• Codex: 35,8 %
------------------------------------
MIKSI VÄLI?
--------
Replikaatiopaketit sisältävät usein ongelmia:
• puuttuvat riippuvuudet
• kovakoodatut tiedostopolut
• puutteelliset ympäristömäärittelyt
Claude Code korjasi nämä ongelmat usein itsenäisesti. Codex epäonnistui usein suoritusputken palauttamisessa.
------------------------------------
ONKO TÄMÄ VAIN ULKOA OPETTELUA?
--------
Testasimme tätä pyytämällä agentteja päättelemään artikkelin metatietoja (otsikko, kirjoittajat, lehti, vuosi) anonymisoiduista replikaatiomateriaaleista. Palautusprosentit olivat hyvin alhaiset, mikä viittaa siihen, että agentit luottivat pääasiassa koodin suorittamiseen, eivät papereiden ulkoa opetteluun.
------------------------------------
PÄÄTTELYTESTI
--------
Testasimme myös vaikeamman tehtävän:
Voivatko agentit päätellä tutkimuksen tutkimuksen kysymyksen pelkän koodin ja datan perusteella?
Molemmat agentit suoriutuivat yllättävän hyvin.
------------------------------------
VAHVISTUSHARHA
--------
Kun agenteille annettiin paperi-PDF, ilmeni uusi ongelma. Joskus he kopioivat raportoituja tuloksia tekstistä sen sijaan, että olisivat suorittaneet koodin.
Tarkkuus ei-toistettavissa tehtävissä laski jyrkästi.
Konteksti auttaa toteutuksessa — mutta vähentää verifioinnin riippumattomuutta.
------------------------------------
MIELISTELYÄ
--------
@ahall_research innoittamana testasimme vastakkainasettelun kehystämistä, ohjaten agentteja seuraamaan:
"Tutki vaihtoehtoisia analyysejä, jotka vastaavat artikkelin raportoituja tuloksia."
Tarkkuus parantui.
Mutta agentit alkoivat myös todennäköisemmin valmistaa tuloksia silloin, kun lisääntyminen oli mahdotonta.
------------------------------------
PARADOKSI
--------
Paine tuottaa vastaus voi auttaa agentteja korjaamaan suoritusputkia.
Mutta se samalla heikentää heidän kykyään sanoa:
"Tätä tulosta ei voida toistaa."
Lisääntymisen mahdottomuuden tunnistaminen voi olla tärkein tieteellinen kyky.
------------------------------------
HUOMAUTUKSIA
--------
• Tämä on keskeneräistä työtä — palaute on tervetullutta.
• Benchmark saatavilla GitHubissa.
• Replikaatiomateriaalit, jotka on isännöity Dataverseen.
Artikkeli + tietovarasto vastauksessa alla.

84
Free Systems laajenee.
Olen palkannut 10+ tutkijaryhmän ja rakennamme täysin uutta, tekoälypohjaista laboratoriota, joka tuottaa ajankohtaisempaa tutkimusta, ideoita ja prototyyppejä, joiden tarkoituksena on säilyttää ihmisen vapaus algoritmisessa maailmassa.
Tulevien viikkojen aikana julkaisemme tutkimusta siitä, miten tekoäly suosittelee ihmisiä äänestämään Japanissa, menestyksekkäistä kokeistamme Texasin esivaaleissa, Bridgewaterin huippuluokan tekoälyn ennustusmenetelmien soveltamisesta geopolitiikan ennustamiseen ja muusta.
Järjestämme myös Free Systems -hackathonin, josta olen todella innoissani.
Rakentaessamme emme halua unohtaa, mitä olemme jo tehneet--- tavoitteena on, että jokainen tutkimuspala osallistuu kokoamisprosessiin, ei pudota verkkoon ja unohtaa lopullisesti.
Tätä varten aloitamme perjantain "System Check" -katsauksen, jossa päivitämme nykyistä tutkimustamme, sen yhteyksiä uusiin kehityksiin ja mitä se merkitsee Free Systemsin rakentamiselle.
Ensimmäinen on julkaistu tänään. Kerro mitä mieltä olet!

103
Ensi lukukaudella opetan radikaalia uutta kandidaattikurssia, FREE SYSTEMS, jonka tarkoituksena on uudistaa demokratiaa ja sitä, miten sitä opiskelemme ja opetamme tekoälyn aikakaudelle.
Opiskelijat oppivat tekoälyn ja demokratian tulevaisuudesta, mutta myös *rakentavat sitä*.
Jokainen opiskelija saa Claude Code -tilin, rahoitetun OpenRouter-API-avaimen ja yhden tärkeän ohjeen: rakentaa työkalut, jotka auttavat meitä säilyttämään ihmisen vapauden yhä algoritmisemmassa maailmassa.
Rakennamme henkilökohtaisia tekoälyagentteja, jotka käsittelevät poliittisia uutisia, käyvät kauppaa poliittisilla ennustemarkkinoilla, äänestävät puolestamme ja keskustelevat muiden opiskelijoiden agenttien kanssa agenttilainsäädännössä... monien muiden asioiden ohella.
Ja siellä on t-paitoja.
Jos olet Stanfordin kandidaatti- tai jatko-opiskelija, toivon, että tulet osallistumaan kurssille. Tule rakentamaan demokratian tulevaisuutta kanssamme!

522
Johtavat
Rankkaus
Suosikit
