美团发布原生多模态LongCat-Next:视觉语音实现底层统一

4月3日,美团技术团队正式发布原生多模态大模型LongCat-Next。该模型突破了传统语言基座+插件的拼凑架构,通过将图像、语音与文本统一转化为同源的离散Token,让AI第一次能够像处理文字一样,原生地看与听物理世界。

为了打破模态间的隔阂,美团构建了DiNA(离散原生自回归)架构,实现了多模态建模的深度统一:全模态统一,无论是文字、图像还是音频,模型都采用同一套参数、注意力机制和损失函数。理解与生成对称,在统一的数学形式下,预测文字Token即为理解,预测图像Token即为生成。极致压缩,采用dNaViT视觉分词器,支持任意分辨率输入,通过8层残差向量量化实现高达28倍的像素空间压缩。

LongCat-Next在多个维度上展现了超越专用模型的性能:细粒度感知在OmniDocBench密集文本场景测试中性能超越Qwen3-Omni。视觉推理在MathVista测试中达到83.1的领先水平。跨模态协同在保持领先语言能力(C-Eval 86.80)的同时,支持低延迟的并行文本语音生成及可定制的语音克隆。

目前,美团已将LongCat-Next模型及dNaViT分词器全部开源。

© 版权声明

相关文章

暂无评论

暂无评论...