【AI资讯】微软开源Phi-4-reasoning-vision-15B：轻量化多模态推理的性价比新标杆

17 0 0

根据相关报道，

微软近日正式开源了其最新多模态推理模型Phi-4-reasoning-vision-15B。该模型以15B参数规模实现了高性能与低成本的平衡，为资源受限环境下的复杂视觉任务提供了全新选择，被业界称为“小钢炮”级多模态模型。

与业界动辄消耗万亿级token的大模型不同，Phi-4-reasoning-vision仅使用200B多模态token完成训练。研发团队将数据质量置于首位，通过深度清洗开源数据、生成定向合成数据及精密的领域数据配比，使模型在科学推理和屏幕定位任务上表现突出。实验数据显示，增加数学数据配比可同步提升模型的计算机操作能力。

该模型采用创新的“混合推理路径”设计：处理图像描述、OCR等简单感知任务时默认直接作答以降低延迟；面对数学公式、科学图表等复杂逻辑时，自动调用结构化思维链（CoT）路径确保准确性。结合SigLIP-2动态分辨率编码器，模型对高分辨率截图中的细小界面元素具有极强感知力，成为开发计算机操作助手（CUA）的理想底座。

微软表示，推出这款紧凑型模型旨在证明“更小、更快”同样可以“更强”，进一步推动空间智能与实时交互技术的普及。

了解更多AI资讯，请持续关注。

# AI新闻资讯