Nueva investigación de Microsoft. Phi-4-reasoning-vision-15B es un modelo de razonamiento multimodal de 15.000 millones de parámetros que combina comprensión visual con capacidades de razonamiento estructurado. Como he estado diciendo, no todas las tareas de agente necesitan un modelo de frontera. Phi-4-razonamiento-visión muestra lo que es posible a 15B parámetros. El informe detalla cómo entrenaron un modelo compacto que puede razonar tanto sobre texto como sobre imágenes, buscando el punto óptimo entre capacidad y eficiencia. Los modelos de razonamiento más pequeños que gestionen la visión son esenciales para despliegues prácticos de agentes. Papel: Aprende a crear agentes de IA efectivos en nuestra academia: