DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Meysam Alizadeh

Araştırma Görevlisi @oiioxford Önceki doktora sonrası @IPZ_ch, @Kennedy_School, @PrincetonSPIA, @IULuddy Hesaplamalı Sosyal Bilim, Bilim İçin Yapay Zeka

Yapay zeka kodlama ajanları, yayımlanmış sosyal bilim bulgularını yeniden üretebilir mi? @_mohsen_m, Fabrizio Gilardi ve @j_a_tucker ile yeni bir çalışmada, 54 makaleden 221 tekrarlanabilirlik görevinin kıyaslaması olan SocSci-Repro-Bench'i tanıtıyoruz ve iki öncü kodlama ajanını değerlendiriyoruz: Claude Code ve Codex. Sonuçlar, yapay zeka destekli bilim için hem olağanüstü yetenekleri hem de yeni riskleri ortaya koyuyor. ------------------------------------ GOL -------- Temel tasarım hedeflerinden biri iki farklı sorunu ayırmaktı: 1️⃣ Çoğaltma materyalleri kendisi tekrarlanabilir mi? 2️⃣ Yapay zeka ajanları materyaller çalıştırılabilirken sonuçları yeniden üretebilir mi? Ajan performansını izole etmek için, yalnızca üç bağımsız manuel uygulamada çıktıları aynı olan görevleri dahil ettik. ------------------------------------ TASARIM -------- Alan temsilciler: • anonimleştirilmiş veri + kod • sandbox tabanlı bir yürütme ortamı Özerk olarak şunları yapmak zorundaydılar: • bağımlılıklar kurulumu • Bozuk kodu hata ayıklayın • boru hattını yürütmek • istenen sonuçları çıkarmak Kısaca: uçtan uca hesaplamalı üretim. ------------------------------------ SONUÇLAR -------- Her iki ajan da yayımlanan bulguların büyük bir kısmını yeniden yayımladı. Ama Claude Code Codex'ten çok daha iyi performans gösterdi. Görev düzeyinde doğruluk • Claude Code: %93,4 • Kodeks: %62,1 Kağıt seviyesinde çoğaltma (tüm görevler doğru) • Claude Kodu: %78,0 • Kodeks: %35,8 ------------------------------------ NEDEN BU BOŞLUK? -------- Çoğaltma paketleri genellikle şu sorunları içerir: • eksik bağımlılıklar • sabit kodlanmış dosya yolları • eksik ortam spesifikasyonları Claude Code bu sorunları sık sık kendi başına onardı. Codex genellikle yürütme boru hattını kurtaramıyordu. ------------------------------------ BU SADECE EZBERLEME MI? -------- Bunu, ajanlardan anonimleştirilmiş replikasyon materyallerinden makale meta verilerini (başlık, yazarlar, dergi, yıl) çıkarmalarını isteyerek test ettik. Kurtarma oranları çok düşüktü, bu da ajanların esas olarak kod yürütmesine dayandığını, makalelerin ezberlenmesine değil de güvendiğini gösteriyordu. ------------------------------------ MANTIF TESTI -------- Ayrıca daha zor bir görevi de test ettik: Ajanlar sadece kod ve verilerden bir çalışmanın araştırma sorusunu çıkarabilir mi? Her iki ajan da şaşırtıcı derecede iyi performans sergiledi. ------------------------------------ TEYINAT YANLIYI -------- Ajanlara kağıt PDF verildiğinde yeni bir sorun ortaya çıktı. Bazen kodu çalıştırmak yerine metinden rapor edilen sonuçları kopyalıyorlardı. Tekrarlanamayan görevlerde doğruluk keskin bir şekilde düştü. Bağlam uygulamaya yardımcı olur — ancak doğrulamanın bağımsızlığını azaltır. ------------------------------------ ALDATMA -------- @ahall_research'den ilham alarak, düşmanca prompt çerçevelemeyi test ettik, ajanları şu şekilde yönlendirdik: "Makalenin rapor ettiği sonuçlarla uyumlu alternatif analizleri keşfedin." Doğruluk arttı. Ancak ajanlar üremek imkansız olduğunda sonuçları üretme olasılığı da arttı. ------------------------------------ PARADOKS -------- Bir cevap verme baskısı, ajanların yürütme hatlarını onarmasına yardımcı olabilir. Ama aynı zamanda şunu söyleme yeteneklerini aşındırır: "Bu sonuç tekrarlanamaz." Üremenin imkansız olduğu zamanları fark etmek en önemli bilimsel yetenek olabilir. ------------------------------------ NOTLAR -------- • Bu devam eden bir çalışma — geri bildirim memnuniyetle karşılanır. • Benchmark GitHub'da mevcut. • Dataverse'te barındırılan çoğaltma materyalleri. Aşağıdaki yanıtta makale + depo.

En İyiler

Sıralama

Takip Listesi