Menurut tolok ukur Qwen3.5 4B sama baiknya dengan GPT 4o. GPT 4o keluar ~2 tahun yang lalu (Mei 2024). Qwen 3.5 4B berjalan dengan mudah di perangkat seluler modern. Jadi kesenjangan antara kecerdasan perbatasan di pusat data dan menjalankan model dengan kualitas yang sama di iPhone Anda bisa menjadi 2-3 tahun. (Mungkin lebih dekat ke 3 dengan asumsi Qwen3.5 4B lebih benchmaxxed daripada 4o) Saya tidak mengharapkan tren peningkatan kecerdasan per watt berubah. Jadi dalam 2-3 tahun masuk akal kami akan menjalankan model berkualitas GPT 5.x di iPhone. Cukup liar.
@martinald saya belum melakukan perhitungan (akan sangat penasaran untuk melihatnya). Tapi saya bertaruh Anda dapat membuat panjang konteks >100k bekerja di ponsel dengan 10GB dengan kuantisasi cache KV.
Siapa pun yang memberi tahu saya konteks adalah masalahnya. Ini terbatas tetapi tidak dapat diatasi. Qwen 3.5 adalah model hybrid. Ini memiliki 8 lapisan perhatian global (head dim=128, key/value heads=4). Asumsikan kuantisasi cache KV 8 bit (tidak ada kehilangan kualitas). Dengan 2GB Anda dapat memuat ~65k panjang konteks. Awal yang baik. Akan menjadi lebih baik.
Siapa pun yang memberi tahu saya konteks adalah masalahnya. Ini terbatas tetapi tidak dapat diatasi. Qwen 3.5 adalah model hybrid. Ini memiliki 8 lapisan perhatian global (head dim=256, key/value heads=4). Asumsikan kuantisasi cache KV 8 bit (tidak ada kehilangan kualitas). Dengan 2GB Anda dapat memuat ~65k panjang konteks. Awal yang baik. Akan menjadi lebih baik.
@simonw (Saya mereferensikan silang beberapa hasil dan mereka benar sejauh yang saya tahu)
Banyak komentar bahwa model ini benchmaxxed / bocor evals / tidak sebagus 4o. Alangkah baiknya jika seseorang melakukan analisis yang ketat menggunakan beberapa tolok ukur yang tersembunyi dan beragam secara ideal. Model perbatasan apa yang sebanding dengan Qwen 3.5 4B? Apa perkiraan yang masuk akal untuk waktu dari perbatasan ke tepi? Sejauh ini saya tidak melihat bukti bahwa itu lebih dari 3 tahun, dan sangat mungkin di suatu tempat dalam kisaran 2-4 tahun.
170