新芽专题介绍:生成和理解统一模型

一、专题介绍

1.1 研究背景

近年来,大型语言模型(LLM)如LLaMA、Qwen、GPT等的崛起,彻底改变了人工智能的格局。与此同时,多模态理解模型(如LLaVA、Qwen-VL、GPT-4V)和图像生成模型(如Stable Diffusion、FLUX)也取得了显著进展。然而,这两类模型长期分道扬镳。 而统一多模态模型的终极目标是构建一个既能理解多模态输入(如文本、图像、音频),又能生成多模态输出的通用框架。例如,模型可以接收一张图片和一段指令,生成符合语义的图像或文本回答。

1.2 研究意义

理解和生成统一模型旨在构建一个同时具备理解能力与生成能力的人工智能系统,使模型不仅能准确理解输入信息,还能基于理解结果生成高质量输出。这一研究方向的意义主要体现在:

  1. 智能交互与应用:模型可同时完成文本理解、图像识别、语音处理等任务,并生成自然语言描述、图像、视频等内容,实现更自然的人机交互体验。

  2. 科研与工业创新:统一模型能够将感知与生成能力结合,推动自动写作、内容创作、智能设计、辅助决策等领域的发展,提高工作效率与创新水平。

  3. 技术突破与方法论:探索理解与生成的一体化建模,有助于优化多模态学习、知识迁移、模型压缩与高效推理等核心技术,推动深度学习整体方法论的发展。

因此,这一研究主题不仅意义重大,而且是深度学习、图像处理的前沿研究案例,非常适合作为本科生进入科研领域的启蒙训练。

▲ 2024-2025国内外大厂部分统一模型:

  • OpenAI:GPT-4o
  • Google:UniFluid
  • Meta:MetaQueries
  • DeepSeek: Janus
  • 阿里:Qwen-Image
  • 蚂蚁:Ming-Omni
  • 腾讯:MMAR
  • 华为:ILLUME
  • 字节:BAGEL
  • 快手:Orthus

▲ 统一模型体验:

1.3 当前主要挑战

尽管方向重要,但实现统一模型仍然面临多重挑战:

  1. 挑战一:多模态认知促进探究

    • 认知差异:多模态理解模型与生成模型之间的特征差异,表征差异理论及可视化分析。
    • 促进机制:多模态理解模型与生成模型之间如何互相促进,提升彼此生成与理解能力。
  2. 挑战二:多模态理解生成模型协同范式

    • 生成式理解:侧重于探究大语言模型理解能力的边界,以及如何使用多模态思维链构建生成内容,以促进理解。
    • 理解式生成:侧重于提升生成模型的抽象生成能力,感知判别任务的生成能力,辅助感知理解模型进行判别。

综上,理解与生成统一模型的研究仍处于探索突破阶段,相关方法和性能指标尚未完全成熟,这是一个很好的学习窗口:既能接触实际应用需求,又能紧跟人工智能前沿研究。


二、学习资料与参考文献

为了引导新芽学子逐步进入研究,本专题结构分为以下四部分:


2.1 基础教材与学习材料

在开始探险之前,你需要掌握一些基础的“内功心法”,这些是后续一切学习的基石。以下是你可以使用的一些书籍/教程

此外,你也可以使用一些入门工具

Tips:务必摆脱所有基础都打好后,再进行下一阶段学习的心态,在干中学,遇到不明白的再回溯补基础。


2.2 入门文献(视觉大模型基石)

学生第一阶段的阅读训练,可帮助理解视觉大模型的技术脉络。仅用于入门,不可选择此部分文献汇报。

  • ViT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR 2021)
  • Swin Transformer: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (ICCV 2021)
  • ConvNext: A convnet for the 2020s (CVPR 2022)
  • SAM: Segment Anything (ICCV 2023)
  • CLIP: Learning Transferable Visual Models From Natural Language Supervision (ICML 2021)
  • MAE: Masked Autoencoders Are Scalable Vision Learners (CVPR 2022)
  • MoCo: Momentum Contrast for Unsupervised Visual Representation Learning (CVPR 2020)
  • SimCLR: A Simple Framework for Contrastive Learning of Visual Representations (ICML 2020)
  • DINO: Emerging Properties in Self-Supervised Vision Transformers (ICCV 2021)
  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (NAACL 2019)
  • ViTDet:Exploring plain vision transformer backbones for object detection: (ECCV 2022)

2.3 进阶文献(通用视觉大模型前沿)

学生可在此部分选择进阶文献进行专题汇报,或自行查找最新的同类重要文献。

  • SAM 2: Sam 2: Segment anything in images and videos (arXiv 2024)
  • DINOv2: DINOv2: Learning Robust Visual Features without Supervision (ICCV 2023)
  • DINOv3: DINOv3 (arXiv 2025)
  • LLaVA: Visual Instruction Tuning (NeurIPS 2023)
  • Florence: A New Foundation Model for Computer Vision (arXiv 2021)
  • ViT-Adapter: Vision transformer adapter for dense predictions (ICLR 2023)
  • Qwen2. 5-vl: Qwen2. 5-vl technical report (arXiv 2025)
  • CoT: Chain-of-thought prompting elicits reasoning in large language models (NeurIPS 2025)
  • LLaVA-CoT: LLaVA-CoT: Let Vision Language Models Reason Step-by-Step (NeurIPS 2024)
  • Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection (ICLR 2024)
  • RAM: Recognize Anything: A Strong Image Tagging Model (ICCV 2023)
  • InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions (CVPR 2023)
  • OWL-ViT: Simple Open-Vocabulary Object Detection with Vision Transformers (ECCV 2022)
  • Visual-RFT: Visual-RFT: Visual reinforcement fine-tuning (ICCV 2025)

2.4 进阶文献(通用生成模型前沿)

  • REPA: Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think
  • REPA-E: REPA-E: Unlocking VAE for End-to-End Tuning of Latent Diffusion Transformers
  • REG: Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think
  • SiT: SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers
  • UViT: All are Worth Words: A ViT Backbone for Diffusion Models (CVPR 2023)
  • DiT: Scalable Diffusion Models with Transformers (DiT)
  • ADM: Diffusion Models Beat GANS on Image Synthesis.
  • DDPM: Denoising Diffusion Probabilistic Models.
  • DDIM: Denoising Diffusion Implicit Models.

2.5 进阶文献(统一模型前沿)

  • Survey: Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities
  • Janus: Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
  • BLIP3-o: BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset
  • Ming-Omni: Ming-Omni: A Unified Multimodal Model for Perception and Generation
  • UniWorld: UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
  • Chameleon: Chameleon: Mixed-Modal Early-Fusion Foundation Models
  • BAGEL: Emerging Properties in Unified Multimodal Pretraining
  • Emu3: Emu3: Next-Token Prediction is All You Need.
  • TokLIP: TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation.
  • MMaDA: MMaDA: Multimodal Large Diffusion Language Models.

三、结语与期望

“新芽计划”的初衷是点燃新芽学子对未知探索的热情,并为大家提供一片成长的沃土。统一模型是一个充满挑战与机遇的领域,它既是国家和大厂需求的“硬骨头”,也是学术创新的“试金石”。希望通过这个专题,新芽学子不仅能学到前沿的 AI 知识,更能培养出独立思考、动手实践和解决复杂问题的能力。

我们热切期待,在最终的汇报中,能看到大家闪耀着智慧火花的解读与创见!

Yimian Dai
Yimian Dai
Associate Professor

南开大学计算机学院副教授,专注于红外弱小目标检测、多模态视觉感知方向的研究。