2月5日,由中科算网算泥社区主编的《多模态大语言模型技术发展报告》正式发布!该报告旨在全面、权威且具有前瞻性的回顾多模态大语言模型的发展历程,深度剖析截至目前涌现的核心技术创新,全面展示其在各个领域的应用实践,并客观分析当前面临的挑战与未来的发展机遇。希望通过这份报告为学术界的研究人员提供清晰的技术路线图,为工业界的开发者提供可靠的实践指南,为相关领域的决策者提供科学的战略参考,共同推动多模态人工智能技术健康、快速地发展。
人工智能的发展正进入一个以多模态融合为核心标志的新纪元。继大型语言模型(Large Language Models,LLMs)在自然语言处理领域取得革命性突破之后AI研究的焦点正迅速转向能够同时理解和生成文本、图像、音频、视频乃至更复杂模态信息的统一模型。2025年我们见证了多模态大语言模型的爆发式增长其技术迭代速度和能力边界的拓展远超预期,深刻地重塑着人机交互的范式、内容创作的流程以及科学研究的边界。
从早期的双流架构探索如ViLBERT和LXMERT到CLIP凭借对比学习实现视觉与语言的深度对齐多模态技术的发展历经了漫长的积累。然而直到2023年随着LLaVA等工作的出现将视觉编码器与大型语言模型相结合的“指令微调”(Instruction Tuning)范式才真正点燃了社区的热情使得模型能够以前所未有的方式遵循人类指令来执行多模态任务。这一阶段开源社区的繁荣特别是LLaMA系列模型的开放极大地加速了技术的普及与创新。
进入2024年研究的重点转向了“统一建模”。以Meta的Chameleon和谷歌的VITRON为代表的模型开始尝试在单一架构内统一理解与生成任务打破了两者之间的壁垒。Show-o等工作更是探索了自回归(Autoregressive)与扩散(Diffusion)两种生成范式的混合旨在兼顾生成质量与效率。这些探索为2025年的技术爆发奠定了坚实的基础。
2025年我们目睹了多模态技术从“统一”走向“全能”的飞跃。以Janus为代表的“解耦设计”理念通过为理解和生成任务提供独立的视觉编码路径显著提升了模型的综合性能解决了早期融合架构的内在冲突。紧接着以JanusFlow和NExT-OMNI为代表的模型创新性地引入了整流流(Rectified Flow)和离散流匹配(Discrete Flow Matching)等更先进的生成范式进一步提升了生成质量和效率。在应用层面VITA-1.5在实时视觉-语音交互方面取得了接近GPT-4o的性能而阿里巴巴的Qwen3-Omni则首次在单一原生全模态模型中实现了跨越文本、图像、音频、视频所有主流模态的最先进性能。与此同时Mogao在交错多模态内容生成方面的突破预示着AI在内容创作领域将扮演更为核心的角色。
在这一波澜壮阔的技术浪潮中新的架构、训练方法、数据集和评估基准层出不穷知识的更新速度呈指数级增长。然而信息的碎片化和技术细节的复杂性也为研究人员、开发者和决策者带来了巨大的挑战。系统性地梳理多模态大语言模型的技术脉络评估其能力边界洞察其未来走向变得至关重要且异常紧迫。
多模态大语言模型的定义与范畴
为了系统性地展开本报告的论述首先必须对“多模态大语言模型”(Multimodal Large Language Models,MLLMs)的核心概念及其范畴进行清晰的界定。广义上多模态大语言模型是指一类能够处理、理解、关联和生成两种或两种以上不同模态信息的人工智能大语言模型。这些模型通常以一个强大的大型语言模型(LLM)为核心通过特定的架构设计将LLM的语言能力扩展到非文本模态从而实现跨模态的智能处理。
模态(Modality)在本报告中指代信息的特定表现形式。当前多模态大语言模型研究涵盖的主要模态包括:
文本(Text):作为所有MLLMs的基础提供核心的语义理解、逻辑推理和指令遵循能力。
视觉(Vision):包括静态图像(Image)和动态视频(Video)是当前研究最活跃、应用最广泛的非文本模态。
音频(Audio):涵盖语音(Speech)、音乐(Music)和通用声音事件(Sound Events)是实现自然人机交互的关键。
动作(Action):主要应用于具身智能(Embodied AI)和机器人领域指代模型输出的物理或虚拟环境中的动作序列。
其他模态:还包括三维(3D)表示、热成像、表格、图表、分子结构等更专业的模态这些模态的整合正在成为新的研究前沿。
基于模型对不同模态的处理能力和架构设计我们可以从以下几个维度对多模态大语言模型进行划分:
表1:多模态大语言模型的分类维度

一个核心的演进趋势是从理解到生成的统一。早期的多模态模型主要聚焦于“理解”任务如视觉问答(VQA)或图像描述。然而随着生成模型特别是扩散模型和流模型的成熟新一代的多模态大语言模型已经具备了强大的“生成”能力能够根据文本或多模态输入创造出全新的图像、视频或音频内容。这种理解与生成的统一是衡量现代多模态大语言模型能力的关键标准。
本报告将重点关注那些致力于实现任务统一和端到端设计的多模态大语言模型特别是那些在2024年至2026年间发布、推动技术边界向前发展的模型。深入探讨它们如何通过创新的架构设计和训练方法逐步实现对更多模态的覆盖并最终迈向能够处理任意模态输入和输出的“全模态智能”这一宏伟目标。
核心发现与关键洞察
2025年是“全模态元年”技术范式发生根本性转变。技术演进的核心驱动力从“统一理解与生成”转向“追求全能与实时”。以解耦设计(Decoupling)、流模型(Flow Models)和 原生全模态(Native Omni-Modal)为代表的三大技术突破共同定义了2025年的技术新高度使得模型在能力边界和交互体验上取得了质的飞跃。
混合生成范式成为主流流模型潜力巨大。纯粹的自回归或扩散模型正被更高效、更高质量的混合范式所取代。特别是以Rectified Flow和Discrete Flow为代表的流模型因其理论上的优雅性和实践中的高效性在JanusFlow和NExT-OMNI等前沿工作中展现出巨大潜力有望成为下一代生成模型的核心技术。
实时交互与交错生成是应用落地的关键。以VITA-1.5为代表的实时视觉-语音交互能力以及以Mogao为代表的交错多模态内容生成能力极大地提升了用户体验和AI的实用价值。这标志着多模态技术正从“可用”迈向“好用”为在消费电子、内容创作、在线教育等领域的规模化应用铺平了道路。
开源生态持续繁荣但与顶级闭源模型的差距依然存在。以Qwen3-Omni、VITA系列等为代表的开源模型在2025年取得了长足进步部分能力已能对标GPT-4o等顶级闭源模型。然而在模型的稳定性、长上下文处理能力和复杂推理的可靠性方面差距依然存在。开源社区的快速迭代和工业界的持续投入将是弥合差距的关键。
数据和评估的挑战日益凸显。随着模型能力的增强对高质量、多样化的多模态数据(特别是视频和交错数据)的需求变得空前迫切。同时现有的评估基准在衡量模型的真实世界能力特别是交互能力和安全性方面仍显不足。构建更全面的数据生态和更科学的评估体系是推动领域健康发展的当务之急。
综上所述2025年的多模态大语言模型领域呈现出技术加速迭代、应用场景快速拓展、开源与闭源激烈竞争的繁荣景象。我们正处在一个由多模态技术定义的“AI2.0”时代的开端其深远影响将在未来几年内持续显现。
本报告共计分为“序言、多模态大语言模型发展历程、核心技术架构与训练方法的进化、数据来源与评估基准、应用场景与实践、当前挑战与未来展望”六大部分内容。
完整版报告,请扫描下方二维码


