2026年3月5日,微软发布并开源了15亿参数的多模态推理模型Phi-4-reasoning-vision-15B。该模型结合视觉编码算法SigLIP-2和推理模型Phi-4Reasoning,采用“中融合”架构,在部分网络层实现多模态处理,显著降低算力消耗。用户可通过提示词动态启用或关闭推理功能,平衡推理强度与资源效率。训练数据主要来自开源数据集,经多阶段筛选和优化,确保高质量。基准测试显示,该模型在多模态数学问题测试中表现优异,成绩较同规模模型高出17%,在数学与科学推理方面竞争力突出。应用层面,该模型可用于构建具备界面理解能力的AI代理系统,分析科学图表等复杂视觉内容。目前,微软已在HuggingFace、GitHub及Azure平台开放模型代码与访问渠道。
