De acordo com benchmarks, o Qwen3.5 4B é tão bom quanto o GPT 4o. O GPT 4o foi lançado há cerca de 2 anos (maio de 2024). O Qwen 3.5 4B funciona facilmente em dispositivos móveis modernos. Portanto, a diferença entre a inteligência de ponta em um datacenter e a execução de um modelo de qualidade igual no seu iPhone pode ser de 2 a 3 anos. (Provavelmente mais perto de 3, assumindo que o Qwen3.5 4B é mais otimizado do que o 4o) Não espero que a tendência de aumento da inteligência por watt mude. Portanto, em 2-3 anos, é plausível que estejamos executando modelos de qualidade GPT 5.x em um iPhone. Bem impressionante.
@martinald Eu ainda não fiz o cálculo (estaria muito curioso para vê-lo). Mas apostaria que você conseguiria fazer >100k de comprimento de contexto funcionar em um telefone com 10GB com quantização de cache KV.
Qualquer um que me diga que o contexto é o problema. É limitado, mas não insuperável. O Qwen 3.5 é um modelo híbrido. Tem 8 camadas de atenção global (dimensão da cabeça=128, cabeças de chave/valor=4). Assuma a quantização do cache KV de 8 bits (sem perda de qualidade). Com 2GB, você pode acomodar ~65k de comprimento de contexto. Um bom começo. Vai melhorar.
Qualquer um que me diga que o contexto é o problema. É limitado, mas não insuperável. O Qwen 3.5 é um modelo híbrido. Tem 8 camadas de atenção global (dimensão da cabeça=256, cabeças de chave/valor=4). Assuma a quantização de cache KV de 8 bits (sem perda de qualidade). Com 2GB, você pode acomodar ~65k de comprimento de contexto. Um bom começo. Vai melhorar.
@simonw (Eu verifiquei alguns dos resultados e eles estão corretos, pelo que posso dizer)
Muitos comentários de que este modelo está maximizando / vazou avaliações / não é tão bom quanto o 4o. Seria bom se alguém fizesse uma análise rigorosa usando alguns benchmarks idealmente ocultos e diversos. A que modelo de fronteira o Qwen 3.5 4B é comparável? Qual é uma estimativa razoável para o tempo de fronteira até a borda? Até agora, não vejo nenhuma evidência de que seja mais do que 3 anos, e muito provavelmente em algum lugar na faixa de 2 a 4 anos.
166