根据相关报道,
微软近日正式开源了其最新多模态推理模型Phi-4-reasoning-vision-15B。该模型以15B参数规模实现了高性能与低成本的平衡,为资源受限环境下的复杂视觉任务提供了全新选择,被业界称为“小钢炮”级多模态模型。
与业界动辄消耗万亿级token的大模型不同,Phi-4-reasoning-vision仅使用200B多模态token完成训练。研发团队将数据质量置于首位,通过深度清洗开源数据、生成定向合成数据及精密的领域数据配比,使模型在科学推理和屏幕定位任务上表现突出。实验数据显示,增加数学数据配比可同步提升模型的计算机操作能力。
该模型采用创新的“混合推理路径”设计:处理图像描述、OCR等简单感知任务时默认直接作答以降低延迟;面对数学公式、科学图表等复杂逻辑时,自动调用结构化思维链(CoT)路径确保准确性。结合SigLIP-2动态分辨率编码器,模型对高分辨率截图中的细小界面元素具有极强感知力,成为开发计算机操作助手(CUA)的理想底座。
微软表示,推出这款紧凑型模型旨在证明“更小、更快”同样可以“更强”,进一步推动空间智能与实时交互技术的普及。
了解更多AI资讯,请持续关注。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...