Ifølge referanseindeksene er Qwen3.5 4B like bra som GPT 40. GPT 4o kom ut for ~2 år siden (mai 2024). Qwen 3.5 4B kjører enkelt på moderne mobile enheter. Så gapet mellom grenseintelligens i et datasenter og å kjøre en modell av lik kvalitet på iPhonen din kan være 2-3 år. (Sannsynligvis nærmere 3, forutsatt at Qwen3.5 4B er mer benkmaxet enn 4O) Jeg forventer ikke at trenden med økt intelligens per watt vil endre seg. Så om 2-3 år er det plausibelt at vi vil kjøre GPT 5.x-kvalitetsmodeller på en iPhone. Ganske vilt.
@martinald jeg har ikke gjort beregningen (ville vært veldig nysgjerrig på å se den). Men jeg vil tippe at du kan få >100k kontekstlengde til å fungere på en telefon med 10 GB med KV-cache-kvantisering.
Alle som forteller meg kontekst er problemet. Det er begrenset, men ikke uoverkommelig. Qwen 3.5 er en hybridmodell. Den har 8 globale oppmerksomhetslag (hode dim=128, nøkkel/verdi hoder=4). Anta 8-bits KV cache-kvantisering (ingen tap i kvalitet). Med 2 GB kan du få plass til ~65k kontekstlengde. God start. Det blir bedre.
Alle som forteller meg kontekst er problemet. Det er begrenset, men ikke uoverkommelig. Qwen 3.5 er en hybridmodell. Den har 8 globale oppmerksomhetslag (hode dim=256, nøkkel/verdi hoder=4). Anta 8-bits KV cache-kvantisering (ingen tap i kvalitet). Med 2 GB kan du få plass til ~65k kontekstlengde. God start. Det blir bedre.
@simonw (jeg har kryssjekket noen av resultatene, og de er riktige så vidt jeg kan se)
Mange kommentarer om at denne modellen er benchmaxxet / lekket evalueringer / ikke like god som 40. Det hadde vært fint om noen gjorde en grundig analyse med noen ideelt skjulte og varierte referansepunkter. Hvilken Frontier-modell er Qwen 3.5 4B sammenlignbar med? Hva er et rimelig tidsestimat fra grense til kant? Så langt ser jeg ingen bevis for at det er mer enn 3 år, og sannsynligvis et sted mellom 2-4 år.
169