Согласно бенчмаркам, Qwen3.5 4B так же хорош, как GPT 4o. GPT 4o вышел примерно 2 года назад (май 2024). Qwen 3.5 4B легко работает на современных мобильных устройствах. Таким образом, разрыв между передовым интеллектом в дата-центре и запуском модели равного качества на вашем iPhone может составлять 2-3 года. (Вероятно, ближе к 3, если предположить, что Qwen3.5 4B более оптимизирован, чем 4o) Я не ожидаю, что тенденция к увеличению интеллекта на ватт изменится. Так что через 2-3 года вполне возможно, что мы будем запускать модели качества GPT 5.x на iPhone. Довольно дико.
@martinald Я не делал расчет (мне было бы очень интересно его увидеть). Но я бы поспорил, что вы могли бы заставить работать контекст длиной >100k на телефоне с 10 ГБ с квантованием кэша KV.
Любой, кто говорит мне, что контекст является проблемой. Он ограничен, но не непреодолим. Qwen 3.5 — это гибридная модель. У нее 8 глобальных слоев внимания (размер головы=128, ключевые/значимые головы=4). Предположим, что используется квантование KV-кэша на 8 бит (без потери качества). С 2 ГБ вы можете уместить ~65k длины контекста. Хорошее начало. Будет лучше.
Любой, кто говорит мне, что контекст является проблемой. Он ограничен, но не непреодолим. Qwen 3.5 — это гибридная модель. У нее 8 глобальных слоев внимания (размер головы=256, ключевые/значимые головы=4). Предположим, что используется квантование KV-кэша на 8 бит (без потери качества). С 2 ГБ вы можете уместить ~65k длины контекста. Хорошее начало. Будет лучше.
@simonw (Я сопоставил некоторые результаты, и они верны, насколько я могу судить)
Много комментариев о том, что эта модель перегружена / утечка оценок / не так хороша, как 4o. Было бы здорово, если бы кто-то провел строгий анализ, используя идеальные скрытые и разнообразные бенчмарки. С какой фронтирной моделью сопоставима Qwen 3.5 4B? Какова разумная оценка времени от фронтира до края? Пока я не вижу никаких доказательств того, что это больше 3 лет, и очень вероятно, что это где-то в диапазоне 2-4 лет.
182