DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Yapay zeka kodlama ajanları, yayımlanmış sosyal bilim bulgularını yeniden üretebilir mi? @_mohsen_m, Fabrizio Gilardi ve @j_a_tucker ile yeni bir çalışmada, 54 makaleden 221 tekrarlanabilirlik görevinin kıyaslaması olan SocSci-Repro-Bench'i tanıtıyoruz ve iki öncü kodlama ajanını değerlendiriyoruz: Claude Code ve Codex. Sonuçlar, yapay zeka destekli bilim için hem olağanüstü yetenekleri hem de yeni riskleri ortaya koyuyor. ------------------------------------ GOL -------- Temel tasarım hedeflerinden biri iki farklı sorunu ayırmaktı: 1️⃣ Çoğaltma materyalleri kendisi tekrarlanabilir mi? 2️⃣ Yapay zeka ajanları materyaller çalıştırılabilirken sonuçları yeniden üretebilir mi? Ajan performansını izole etmek için, yalnızca üç bağımsız manuel uygulamada çıktıları aynı olan görevleri dahil ettik. ------------------------------------ TASARIM -------- Alan temsilciler: • anonimleştirilmiş veri + kod • sandbox tabanlı bir yürütme ortamı Özerk olarak şunları yapmak zorundaydılar: • bağımlılıklar kurulumu • Bozuk kodu hata ayıklayın • boru hattını yürütmek • istenen sonuçları çıkarmak Kısaca: uçtan uca hesaplamalı üretim. ------------------------------------ SONUÇLAR...

En İyiler

Sıralama

Takip Listesi