SenseNova-U1:无视觉编码器的原生多模态统一大模型
商汤开源,采用全新NEO-Unify架构,去掉了传统多模态模型中的视觉编码器(VE)和变分自编码器(VAE),实现了语言与视觉的端到端原生统一。
· 传统方案:图像先经VE编码为特征向量,再经适配层对接语言模型;生成时再反向走VAE解码,存在信息损耗和两套参数的训练冲突
· NEO-Unify方案:像素和词元在同一个统一表示空间内被端到端建模,通过原生MoT(Mixture of Tokens)机制实现高效跨模态推理,消除模态之间的"翻译层"
模型:
显示更多