Nova pesquisa da Microsoft. Phi-4-reasoning-vision-15B é um modelo de raciocínio multimodal com 15 bilhões de parâmetros que combina compreensão visual com capacidades de raciocínio estruturado. Como venho dizendo, nem toda tarefa de agente precisa de um modelo de fronteira. Phi-4-reasoning-vision mostra o que é possível com 15 bilhões de parâmetros. O relatório detalha como treinaram um modelo compacto que pode raciocinar sobre texto e imagens, visando o ponto ideal entre capacidade e eficiência. Modelos de raciocínio menores que lidam com visão são essenciais para implementações práticas de agentes. Artigo: Aprenda a construir agentes de IA eficazes na nossa academia: