Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ramin Hasani
veja isto 👌🏻

Sanchit monga5/03, 11:58
Em apenas 48 horas na @RunAnywhereAI, construímos o MetalRT: superando a @Apple no seu próprio jogo e entregando o MOTOR de inferência LLM MAIS RÁPIDO do mercado para Apple Silicon neste momento.
- 570 tok/s decodificação @liquidai LFM 2.5-1.2B 4-bit
- 658 tok/s decodificação @Alibaba_Qwen Qwen3-0.6B, 4-bit
- 6.6 ms tempo até o primeiro token
- 1.19× mais rápido que o próprio MLX da Apple (arquivos de modelo idênticos)
- 1.67× mais rápido que llama.cpp em média
Destruímos a Apple MLX, llama.cpp, uzu(by TryMirai) e Ollama em quatro modelos diferentes de 4-bit, incluindo o LFM2.5-1.2B otimizado para dispositivo em um único M4 Max.
Empolgado por este!

174
Lançamento verdadeiramente impressionante de modelos híbridos pequenos da equipe Qwen, como sempre!
As pessoas estão perguntando como eles se comparam em velocidade, latência e memória aos LFMs da @liquidai para implantação em dispositivos?
Aqui está um rápido perfilamento no Apple M3 Ultra:
> LFM2.5-1.2B é 52% mais rápido na decodificação do que o Qwen3.5-0.8B.
> LFM2-700M é 71% mais rápido do que o Qwen3.5-0.8B na decodificação
> LFM2-2.6B tem a mesma velocidade que o Qwen3.5-2B na decodificação
> LFM2-700M usa 46% menos memória de pico do que o Qwen3.5-0.8B
> LFM2-2.6B usa 21% menos memória de pico do que o Qwen3.5-2B
> lfms prefill com o mesmo tamanho de parâmetro é geralmente 12% mais rápido do que o Qwen3.5
Projetamos a série LFM2 com nossa abordagem de design meta AI com hardware em loop, que nos permite descobrir a arquitetura mais eficiente para um determinado processador sem sacrificar a qualidade.
Este teste foi realizado no Apple M3 Ultra, 512 GB de memória unificada
Configuração:
> 512 tokens de prompt, 128 tokens de geração,
> 5 testes por configuração
> Framework: MLX (mlx-lm / mlx-vlm)


Qwen2/03, 21:18
🚀 Apresentando a Série de Modelos Pequenos Qwen 3.5
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Mais inteligência, menos computação.
Estes modelos pequenos são construídos sobre a mesma base Qwen3.5 — multimodal nativo, arquitetura melhorada, RL escalado:
• 0.8B / 2B → pequeno, rápido, ótimo para dispositivos de borda
• 4B → uma base multimodal surpreendentemente forte para agentes leves
• 9B → compacto, mas já fechando a lacuna com modelos muito maiores
E sim — também estamos lançando os modelos Base.
Esperamos que isso apoie melhor a pesquisa, a experimentação e a inovação industrial no mundo real.
Hugging Face:
ModelScope:

164
Top
Classificação
Favoritos
