DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Connor Davis

Pendiri @getoutbox_ai Pelajari cara membuat Agen AI GRATIS 👉 https://t.co/q9zPwlldZ4

MIT baru saja menerbitkan makalah yang diam-diam menjelaskan mengapa penalaran LLM menabrak dinding dan bagaimana melewatinya. Cerita yang biasa terjadi adalah bahwa model gagal pada masalah sulit karena mereka tidak memiliki skala, data, atau kecerdasan. Makalah ini berpendapat sesuatu yang jauh lebih struktural: model berhenti membaik karena sinyal pembelajaran menghilang. Begitu tugas menjadi terlalu sulit, tingkat keberhasilan runtuh menuju nol, pembelajaran penguatan tidak memiliki apa pun untuk dioptimalkan, dan penalaran mandek. Kegagalan itu tidak kognitif, itu pedagogis. Penulis mengusulkan pembingkaian ulang yang sederhana namun radikal. Alih-alih bertanya bagaimana membuat model memecahkan masalah yang lebih sulit, mereka bertanya bagaimana model dapat menghasilkan masalah yang mengajarkan mereka. Sistem mereka, SOAR, membagi satu model yang telah dilatih sebelumnya menjadi dua peran: siswa yang mencoba tugas target yang sangat sulit, dan guru yang menghasilkan masalah pelatihan baru. Tangkapannya adalah bahwa guru tidak dihargai karena menghasilkan pertanyaan yang cerdas atau realistis. Ini hanya dihargai jika kinerja siswa meningkat pada serangkaian masalah evaluasi nyata yang tetap. Tidak ada peningkatan berarti nol hadiah. Insentif itu membentuk kembali segalanya. Guru belajar untuk menghasilkan masalah menengah, batu loncatan yang berada tepat di dalam batas kemampuan siswa saat ini. Masalah-masalah ini bukanlah versi yang disederhanakan dari tugas target, dan yang mengejutkan, mereka bahkan tidak memerlukan solusi yang benar. Yang penting adalah bahwa strukturnya memaksa siswa untuk mempraktikkan jenis penalaran yang benar, memungkinkan sinyal gradien muncul bahkan ketika pengawasan langsung gagal. Hasil eksperimen membuat poin ini sangat jelas. Pada tolok ukur di mana model dimulai dengan nol keberhasilan dan pembelajaran penguatan standar benar-benar datar, SOAR memecahkan kebuntuan dan terus meningkatkan kinerja. Model ini lolos dari tepi kemampuan belajar bukan dengan berpikir lebih keras, tetapi dengan membangun lingkungan belajar yang lebih baik untuk dirinya sendiri. Implikasi yang lebih dalam tidak nyaman. Banyak yang dianggap "batas penalaran" mungkin bukan batasan kecerdasan sama sekali. Mereka adalah artefak pengaturan pelatihan yang mengasumsikan dunia menyediakan masalah yang dapat dipelajari secara gratis. Makalah ini menunjukkan bahwa jika model dapat membentuk kurikulum mereka sendiri, dataran tinggi penalaran menjadi masalah teknik, bukan hambatan mendasar. Tidak ada arsitektur baru, tidak ada data manusia tambahan, tidak ada model yang lebih besar. Hanya pergeseran dalam apa yang kita hargai: kemajuan belajar alih-alih jawaban.

Astaga... Makalah ini diam-diam menjelaskan mengapa sebagian besar model "penalaran" berantakan saat Anda mencabutnya dari tolok ukur yang bersih dan menjatuhkannya ke dunia nyata. Tim LongCat menangani pertanyaan yang terus dihindari lapangan: jika model saat ini sangat pandai dalam penalaran, mengapa mereka masih gagal dalam perilaku agen dasar setelah alat rusak, instruksi menjadi kabur, atau lingkungan menolak? Jawaban mereka tidak nyaman. Penalaran tidak gagal karena rantai pemikiran terlalu pendek. Itu gagal karena kita melatih berpikir tanpa konsekuensi. Makalah ini memperkenalkan LongCat-Flash-Thinking-2601, model Mixture-of-Experts 560B parameter yang dibangun di sekitar ide sederhana namun radikal: penalaran hanya menjadi dapat diandalkan ketika dipaksa untuk bertindak, mengamati kegagalan, dan beradaptasi di dalam lingkungan nyata. Alih-alih memperlakukan penalaran sebagai pembuatan teks, mereka membingkainya sebagai perulangan: Amati → merencanakan → bertindak → mendapatkan umpan balik → revisi. Pergeseran itu riak di mana-mana. Data bukan prompt statis lagi. Pelatihan bukanlah lintasan yang bersih. Evaluasi bukanlah jawaban tunggal. Salah satu kontribusi terpenting adalah penskalaan lingkungan. Penulis secara otomatis menghasilkan 10.000+ lingkungan yang dapat dieksekusi di 20+ domain, masing-masing didasarkan pada alat nyata, database nyata, dan beberapa jalur solusi yang valid. Kesulitan meningkat secara struktural, bukan dengan trik cepat yang cerdas. Yang terpenting, mereka tidak membersihkan dunia. Kegagalan alat, instruksi ambigu, output parsial, dan umpan balik yang berisik sengaja disuntikkan. Kebisingan bukanlah bug. Ini kurikulumnya. Untuk menjaga pelatihan tetap stabil pada skala ini, mereka memperluas RL asinkron (DORA) untuk menangani interaksi multi-putaran cakrawala panjang dengan puluhan ribu lingkungan bersamaan tanpa runtuh. Pada saat inferensi, mereka memperkenalkan Mode Berpikir Berat. Alih-alih satu rantai pemikiran yang panjang, model menjalankan jalur penalaran paralel dan kemudian merefleksikannya sebelum bertindak. Ini secara konsisten mengalahkan konsistensi diri pada tugas-tugas yang kompleks dan agen. Hasilnya berbicara dengan keras. Performa canggih di BrowseComp, τ²-Bench, dan VitaBench. Matematika, pengkodean, dan hasil pencarian yang kuat. Dan yang paling penting, degradasi jauh lebih sedikit dalam kondisi bising. Kesimpulan sebenarnya lebih tajam daripada angka patokan mana pun: Kualitas penalaran bukan lagi hambatan. Generalisasi adalah. Dan generalisasi tidak datang dari petunjuk yang lebih baik atau pemikiran yang lebih panjang. Itu berasal dari lingkungan yang mendorong kembali. Jika kita menginginkan agen yang bekerja di luar demo, kita harus berhenti melatih mereka di dunia imajiner yang bersih. Kecerdasan tidak ditempa di mana semuanya berjalan dengan benar. Itu ditempa di mana hal-hal rusak. Makalah: Laporan Teknis LongCat-Flash-Thinking-2601 Baca makalah lengkapnya di sini di:

Teratas

Peringkat

Favorit