Nuove ricerche da Microsoft. Phi-4-reasoning-vision-15B è un modello di ragionamento multimodale con 15 miliardi di parametri che combina la comprensione visiva con capacità di ragionamento strutturato. Come ho sempre detto, non ogni compito di agente ha bisogno di un modello all'avanguardia. Phi-4-reasoning-vision mostra cosa è possibile con 15 miliardi di parametri. Il rapporto dettaglia come hanno addestrato un modello compatto in grado di ragionare sia su testo che su immagini, mirando al punto dolce tra capacità ed efficienza. Modelli di ragionamento più piccoli che gestiscono la visione sono essenziali per implementazioni pratiche degli agenti. Documento: Impara a costruire agenti AI efficaci nella nostra accademia: