Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Yapay zeka kodlama ajanları, yayımlanmış sosyal bilim bulgularını yeniden üretebilir mi?
@_mohsen_m, Fabrizio Gilardi ve @j_a_tucker ile yeni bir çalışmada, 54 makaleden 221 tekrarlanabilirlik görevinin kıyaslaması olan SocSci-Repro-Bench'i tanıtıyoruz ve iki öncü kodlama ajanını değerlendiriyoruz: Claude Code ve Codex.
Sonuçlar, yapay zeka destekli bilim için hem olağanüstü yetenekleri hem de yeni riskleri ortaya koyuyor.
------------------------------------
GOL
--------
Temel tasarım hedeflerinden biri iki farklı sorunu ayırmaktı:
1️⃣ Çoğaltma materyalleri kendisi tekrarlanabilir mi?
2️⃣ Yapay zeka ajanları materyaller çalıştırılabilirken sonuçları yeniden üretebilir mi?
Ajan performansını izole etmek için, yalnızca üç bağımsız manuel uygulamada çıktıları aynı olan görevleri dahil ettik.
------------------------------------
TASARIM
--------
Alan temsilciler:
• anonimleştirilmiş veri + kod
• sandbox tabanlı bir yürütme ortamı
Özerk olarak şunları yapmak zorundaydılar:
• bağımlılıklar kurulumu
• Bozuk kodu hata ayıklayın
• boru hattını yürütmek
• istenen sonuçları çıkarmak
Kısaca: uçtan uca hesaplamalı üretim.
------------------------------------
SONUÇLAR...

En İyiler
Sıralama
Takip Listesi
