【AI资讯】微软开源Phi-4-reasoning-vision-15B:轻量化多模态推理的性价比新标杆

AI新闻资讯2个月前发布 Aizns
17 0

根据相关报道,

微软近日正式开源了其最新多模态推理模型Phi-4-reasoning-vision-15B。该模型以15B参数规模实现了高性能与低成本的平衡,为资源受限环境下的复杂视觉任务提供了全新选择,被业界称为“小钢炮”级多模态模型。

与业界动辄消耗万亿级token的大模型不同,Phi-4-reasoning-vision仅使用200B多模态token完成训练。研发团队将数据质量置于首位,通过深度清洗开源数据、生成定向合成数据及精密的领域数据配比,使模型在科学推理和屏幕定位任务上表现突出。实验数据显示,增加数学数据配比可同步提升模型的计算机操作能力。

该模型采用创新的“混合推理路径”设计:处理图像描述、OCR等简单感知任务时默认直接作答以降低延迟;面对数学公式、科学图表等复杂逻辑时,自动调用结构化思维链(CoT)路径确保准确性。结合SigLIP-2动态分辨率编码器,模型对高分辨率截图中的细小界面元素具有极强感知力,成为开发计算机操作助手(CUA)的理想底座。

微软表示,推出这款紧凑型模型旨在证明“更小、更快”同样可以“更强”,进一步推动空间智能与实时交互技术的普及。

了解更多AI资讯,请持续关注。

© 版权声明

相关文章

暂无评论

暂无评论...