DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Andrej Karpathy

Membangun @EurekaLabsAI. Sebelumnya Direktur AI @ Tesla, tim pendiri @ OpenAI, CS231n/PhD @ Stanford. Saya suka melatih jaring saraf dalam yang besar.

Saya memiliki pemikiran yang sama jadi saya telah memainkannya di nanochat. Misalnya ini adalah 8 agen (4 claude, 4 codex), dengan masing-masing 1 GPU menjalankan eksperimen nanochat (mencoba menghapus softcap logit tanpa regresi). TLDR adalah tidak berfungsi dan berantakan... Tapi masih sangat indah untuk dilihat :) Saya mencoba beberapa pengaturan: 8 peneliti solo independen, 1 kepala ilmuwan yang memberikan pekerjaan kepada 8 peneliti junior, dll. Setiap program penelitian adalah cabang git, setiap ilmuwan mencabang ke dalam cabang fitur, pohon kerja git untuk isolasi, file sederhana untuk komunikasi, lewati Docker/VM untuk kesederhanaan atm (saya menemukan bahwa instruksi sudah cukup untuk mencegah gangguan). Organisasi penelitian berjalan dalam kisi jendela sesi interaktif (seperti Teams) sehingga cantik untuk dilihat, melihat pekerjaan masing-masing, dan "mengambil alih" jika diperlukan, yaitu tidak ada -p. Tapi ok alasan itu tidak berhasil sejauh ini adalah karena ide-ide agen cukup buruk di luar kotak, bahkan pada kecerdasan tertinggi. Mereka tidak berpikir dengan hati-hati meskipun desain eksperimen, mereka menjalankan variasi yang sedikit tidak masuk akal, mereka tidak membuat garis dasar yang kuat dan membuang hal-hal dengan benar, mereka tidak mengontrol runtime atau kegagalan dengan hati-hati. (Hanya sebagai contoh, seorang agen kemarin "menemukan" bahwa meningkatkan ukuran jaringan tersembunyi meningkatkan kehilangan validasi, yang merupakan hasil yang benar-benar palsu mengingat bahwa jaringan yang lebih besar akan memiliki kehilangan validasi yang lebih rendah dalam rezim data tak terbatas, tetapi kemudian juga berlatih lebih lama, tidak jelas mengapa saya harus datang untuk menunjukkannya). Mereka sangat pandai dalam mengimplementasikan ide yang dicakupan dengan baik dan dijelaskan tetapi mereka tidak menghasilkannya secara kreatif. Tetapi tujuannya adalah bahwa Anda sekarang memprogram organisasi (misalnya "organisasi penelitian") dan agennya masing-masing, jadi "kode sumber" adalah kumpulan petunjuk, keterampilan, alat, dll. dan proses yang membentuknya. Misalnya, standup harian di pagi hari sekarang menjadi bagian dari "kode organisasi". Dan mengoptimalkan prapelatihan nanochat hanyalah salah satu dari banyak tugas (hampir seperti eval). Kemudian - diberi tugas sewenang-wenang, seberapa cepat organisasi penelitian Anda menghasilkan kemajuan di dalamnya?

Dengan tsunami permintaan token yang akan datang, ada peluang signifikan untuk mengatur memori+komputasi yang mendasarinya *tepat* untuk LLM. Kendala mendasar dan tidak jelas adalah bahwa karena proses fabrikasi chip, Anda mendapatkan dua kumpulan memori yang sama sekali berbeda (dari implementasi fisik yang berbeda juga): 1) SRAM on-chip yang berada tepat di sebelah unit komputasi yang sangat cepat tetapi berkapasitas sangat rendah, dan 2) DRAM off-chip yang memiliki kapasitas yang sangat tinggi, tetapi isinya hanya bisa Anda hisap melalui sedotan panjang. Selain itu, ada banyak detail arsitektur (misalnya susunan sistolik), numerik, dll. Desain substrat fisik yang optimal dan kemudian orkestrasi memori+komputasi di seluruh alur kerja volume teratas LLM (prefill/decode inference, pelatihan/finetuning, dll.) dengan throughput/latensi/$ terbaik mungkin merupakan teka-teki intelektual paling menarik saat ini dengan imbalan tertinggi (\cite 4.6T dari NVDA). Semua itu untuk mendapatkan banyak token, cepat dan murah. Bisa dibilang, alur kerja yang mungkin paling penting (dekode inferensi *dan* melalui konteks token yang panjang dalam loop agen yang ketat) adalah yang paling sulit dicapai secara bersamaan oleh ~kedua kubu dari apa yang ada saat ini (NVIDIA pertama HBM yang berdekatan dan Cerebras yang pertama SRAM yang berdekatan). Bagaimanapun, tim MatX adalah kelas A++ jadi senang saya memiliki sedikit keterlibatan dan selamat atas kenaikan gajinya!

Teratas

Peringkat

Favorit