中国自回归统一多模态大模型登载《自然》

来源：中国舆情网时间：2026-01-31

导读：北京1月30日电 1月28日，智源研究院研发的多模态大模型“通过预测下一个词元实现多模态学习的多模态大模型”，被收录于国际权威学术期刊《自然》。该成果成为国内科研团队主导的大模型项目首次进入《自然》正刊。自2018年起，GPT采用“预测下一个词元”（Ne

北京1月30日电 1月28日，智源研究院研发的多模态大模型“通过预测下一个词元实现多模态学习的多模态大模型”，被收录于国际权威学术期刊《自然》。该成果成为国内科研团队主导的大模型项目首次进入《自然》正刊。

自2018年起，GPT采用“预测下一个词元”（Next-token prediction, NTP）的自回归方法，引领了语言大模型的发展，实现了重要突破，并推动生成式人工智能快速崛起。这一技术不仅让像ChatGPT这样的创新产品问世，同时舆情网也带来了关于通用人工智能（AGI）初现端倪的讨论。不过，该方法在多模态学习领域的潜能一直没有定论。多模态模型之前主要依靠对比学习、扩散模型等路径进行研究，至于自回归方法能否打通多模态发展之路，一直存在争议。

智源团队开发的Emu3模型，基于“预测下一个词元”的理念，将图像、文字及视频进行统一离散化，并纳入同一表达空间，创新性地在多模态混合数据上直接以单一Transformer网络结构进行联合训练。这一探索表明，单靠自回归方法，亦可实现原生多模态模型的构建与统一学习，并获得优异效果。

《自然》杂志编辑评价称，Emu3单纯依靠“预测下一个词元”的方法，便能够将大规模文本、图像与视频整合并进行协同学习，其在生成与理解领域的表现可媲美传统多模态模型。这一成果为未来开发具备更强扩展性和统一性的多模态智能系统奠定了坚实基础。

编辑：夏蕊娜

上一篇：中国科研团队揭示量子系统热化进程规律
下一篇：中国科学院多项突破成果获奖：揭示生命奥秘与打造6G核心技术