美团发布原生多模态LongCat-Next：视觉语音实现底层统一

14 0 0

4月3日，美团技术团队正式发布原生多模态大模型LongCat-Next。该模型突破了传统语言基座+插件的拼凑架构，通过将图像、语音与文本统一转化为同源的离散Token，让AI第一次能够像处理文字一样，原生地看与听物理世界。

为了打破模态间的隔阂，美团构建了DiNA（离散原生自回归）架构，实现了多模态建模的深度统一：全模态统一，无论是文字、图像还是音频，模型都采用同一套参数、注意力机制和损失函数。理解与生成对称，在统一的数学形式下，预测文字Token即为理解，预测图像Token即为生成。极致压缩，采用dNaViT视觉分词器，支持任意分辨率输入，通过8层残差向量量化实现高达28倍的像素空间压缩。

LongCat-Next在多个维度上展现了超越专用模型的性能：细粒度感知在OmniDocBench密集文本场景测试中性能超越Qwen3-Omni。视觉推理在MathVista测试中达到83.1的领先水平。跨模态协同在保持领先语言能力（C-Eval 86.80）的同时，支持低延迟的并行文本语音生成及可定制的语音克隆。

目前，美团已将LongCat-Next模型及dNaViT分词器全部开源。

# AI新闻资讯