DApp Store | Pusat Web3 untuk Event & Game

Topik trending

MIT baru saja menerbitkan makalah yang diam-diam menjelaskan mengapa penalaran LLM menabrak dinding dan bagaimana melewatinya. Cerita yang biasa terjadi adalah bahwa model gagal pada masalah sulit karena mereka tidak memiliki skala, data, atau kecerdasan. Makalah ini berpendapat sesuatu yang jauh lebih struktural: model berhenti membaik karena sinyal pembelajaran menghilang. Begitu tugas menjadi terlalu sulit, tingkat keberhasilan runtuh menuju nol, pembelajaran penguatan tidak memiliki apa pun untuk dioptimalkan, dan penalaran mandek. Kegagalan itu tidak kognitif, itu pedagogis. Penulis mengusulkan pembingkaian ulang yang sederhana namun radikal. Alih-alih bertanya bagaimana membuat model memecahkan masalah yang lebih sulit, mereka bertanya bagaimana model dapat menghasilkan masalah yang mengajarkan mereka. Sistem mereka, SOAR, membagi satu model yang telah dilatih sebelumnya menjadi dua peran: siswa yang mencoba tugas target yang sangat sulit, dan guru yang menghasilkan masalah pelatihan baru. Tangkapannya adalah bahwa guru tidak dihargai karena menghasilkan pertanyaan yang cerdas atau realistis. Ini hanya dihargai jika kinerja siswa meningkat pada serangkaian masalah evaluasi nyata yang tetap. Tidak ada peningkatan berarti nol hadiah. Insentif itu membentuk kembali segalanya. Guru belajar untuk menghasilkan masalah menengah, batu loncatan yang berada tepat di dalam batas kemampuan siswa saat ini. Masalah-masalah ini bukanlah versi yang disederhanakan dari tugas target, dan yang mengejutkan, mereka bahkan tidak memerlukan solusi yang benar. Yang penting adalah bahwa strukturnya memaksa siswa untuk mempraktikkan jenis penalaran yang benar, memungkinkan sinyal gradien muncul bahkan ketika pengawasan langsung gagal. Hasil eksperimen membuat poin ini sangat jelas. Pada tolok ukur di mana model dimulai dengan nol keberhasilan dan pembelajaran penguatan standar benar-benar datar, SOAR memecahkan kebuntuan dan terus meningkatkan kinerja. Model ini lolos dari tepi kemampuan belajar bukan dengan berpikir lebih keras, tetapi dengan membangun lingkungan belajar yang lebih baik untuk dirinya sendiri. Implikasi yang lebih dalam tidak nyaman. Banyak yang dianggap "batas penalaran" mungkin bukan batasan kecerdasan sama sekali. Mereka adalah artefak pengaturan pelatihan yang mengasumsikan dunia menyediakan masalah yang dapat dipelajari secara gratis. Makalah ini menunjukkan bahwa jika model dapat membentuk kurikulum mereka sendiri, dataran tinggi penalaran menjadi masalah teknik, bukan hambatan mendasar. Tidak ada arsitektur baru, tidak ada data manusia tambahan, tidak ada model yang lebih besar. Hanya pergeseran dalam apa yang kita hargai: kemajuan belajar alih-alih jawaban.

Teratas

Peringkat

Favorit