Enligt riktmärken är Qwen3.5 4B lika bra som GPT 4o. GPT 4o kom ut för ~2 år sedan (maj 2024). Qwen 3.5 4B fungerar enkelt på moderna mobila enheter. Så gapet mellan frontier intelligence i ett datacenter och att köra en modell av samma kvalitet på din iPhone kan vara 2–3 år. (Troligen närmare 3, förutsatt att Qwen3.5 4B är mer bänkmaxad än 40) Jag förväntar mig inte att trenden med ökad intelligens per watt ska förändras. Så om 2-3 år är det troligt att vi kommer att köra GPT 5.x-kvalitetsmodeller på en iPhone. Ganska vilt.
@martinald jag har inte gjort beräkningen (skulle vara väldigt nyfiken på att se den). Men jag skulle gissa att du skulle kunna få >100k kontextlängd att fungera på en telefon med 10 GB med KV-cache-kvantisering.
Alla som berättar kontext är problemet. Det är begränsat men inte oöverstigligt. Qwen 3.5 är en hybridmodell. Den har 8 globala uppmärksamhetslager (huvud dim=128, nyckel/värde huvud=4). Anta 8-bitars KV-cachekvantisering (ingen kvalitetsförlust). Med 2GB kan du rymma ~65k kontextlängd. Bra början. Det blir bättre.
Alla som berättar kontext är problemet. Det är begränsat men inte oöverstigligt. Qwen 3.5 är en hybridmodell. Den har 8 globala uppmärksamhetslager (head dim=256, key/value heads=4). Anta 8-bitars KV-cachekvantisering (ingen kvalitetsförlust). Med 2GB kan du rymma ~65k kontextlängd. Bra början. Det blir bättre.
@simonw (Jag korsrefererade några av resultaten och de stämmer så vitt jag kan se)
Många kommentarer om att denna modell är benchmaxxad / läckta utvärderingar / inte lika bra som 40. Det vore trevligt om någon gjorde en rigorös analys med hjälp av idealiskt dolda och varierade benchmarks. Vilken frontier-modell är Qwen 3.5 4B jämförbar med? Vad är en rimlig uppskattning av tid från gräns till kant? Hittills ser jag inga bevis för att det är mer än 3 år, och mycket troligt någonstans mellan 2-4 år.
170