Згідно з бенчмарками, Qwen3.5 4B не поступається GPT 4o. GPT 4o вийшов ~2 роки тому (травень 2024). Qwen 3.5 4B легко працює на сучасних мобільних пристроях. Отже, проміжок між передовою інтелектуальністю в дата-центрі та запуском моделі однакової якості на вашому iPhone може становити 2-3 роки. (Ймовірно, ближче до 3, якщо Qwen3.5 4B більш benchmaxxed, ніж 4o) Я не очікую, що тенденція збільшення інтелекту на ватт зміниться. Тож через 2-3 роки ймовірно, що ми будемо запускати моделі якості GPT 5.x на iPhone. Досить дико.
@martinald я ще не робив розрахунки (було б дуже цікаво побачити). Але я б припустив, що можна змусити >100k контекстної довжини працювати на телефоні з 10GB за допомогою квантування KV кешу.
Проблема — це будь-хто, хто пояснює контекст. Це обмежено, але не непереборно. Qwen 3.5 — це гібридна модель. Він має 8 глобальних шарів уваги (голова dim=128, голови ключ/значення=4). Припустимо, квантування кешу 8 біт KV (без втрати якості). З 2GB можна вмістити ~65k довжини контексту. Гарний початок. Буде краще.
Проблема — це будь-хто, хто пояснює контекст. Це обмежено, але не непереборно. Qwen 3.5 — це гібридна модель. Він має 8 глобальних шарів уваги (голова dim=256, голови ключ/значення=4). Припустимо, квантування кешу 8 біт KV (без втрати якості). З 2GB можна вмістити ~65k довжини контексту. Гарний початок. Буде краще.
@simonw (я перехресно порівняв деякі результати, і, наскільки я можу судити, вони правильні)
Багато коментарів, що ця модель має benchmaxxed / злиті оцінки / не така хороша, як 4o. Було б добре, якби хтось провів ретельний аналіз, використовуючи ідеально приховані та різноманітні орієнтири. З якою моделлю Frontier можна порівняти Qwen 3.5 4B? Яка розумна оцінка часу від кордону до межі? Поки що я не бачу жодних доказів, що це більше 3 років, і, ймовірно, десь у межах 2-4 років.
158