Podle benchmarků je Qwen3.5 4B stejně dobrý jako GPT 40. GPT 4o vyšlo před ~2 lety (květen 2024). Qwen 3.5 4B běží snadno na moderních mobilních zařízeních. Takže rozdíl mezi Frontier Intelligence v datovém centru a provozem modelu stejné kvality na iPhonu může být 2–3 roky. (Pravděpodobně blíže k 3, pokud Qwen3.5 4B je víc benchmaxované než 40) Neočekávám, že se trend zvyšování inteligence na watt změní. Takže za 2-3 roky je pravděpodobné, že budeme na iPhonu používat modely GPT kvality 5.x. Docela divoké.
@martinald jsem výpočet ještě neprovedl (byl bych velmi zvědavý ho vidět). Ale vsadil bych se, že by >100k kontextové délky fungovalo na telefonu s 10GB s kvantizací KV cache.
Problém je, když mi někdo řekne kontext. Je to omezené, ale ne nepřekonatelné. Qwen 3.5 je hybridní model. Má 8 globálních vrstv pozornosti (hlava dim=128, hlavy klíč/hodnota=4). Předpokládejme kvantizaci cache na 8bitové KV (bez ztráty kvality). S 2GB se do kontextu vejde délka ~65k. Dobrý začátek. Bude to lepší.
Problém je, když mi někdo řekne kontext. Je to omezené, ale ne nepřekonatelné. Qwen 3.5 je hybridní model. Má 8 globálních vrstv pozornosti (hlava dim=256, hlavy klíč/hodnota=4). Předpokládejme kvantizaci cache na 8bitové KV (bez ztráty kvality). S 2GB se do kontextu vejde délka ~65k. Dobrý začátek. Bude to lepší.
@simonw (porovnal jsem některé výsledky a podle všeho jsou správné)
Hodně komentářů, že tento model je benchmaxovaný / uniklé hodnocení / není tak dobrý jako 4o. Bylo by fajn, kdyby někdo provedl důkladnou analýzu s ideálně skrytými a různorodými benchmarky. S jakým modelem Frontier je Qwen 3.5 4B srovnatelný? Jaký je rozumný odhad času od Frontier k Edge? Zatím nevidím žádné důkazy, že by to bylo déle než 3 roky, a velmi pravděpodobně někde mezi 2–4 lety.
168