新芽专题介绍:图像融合

选择此专题并在新芽系列课程中获得优秀的同学,可以免去前期筛选考核流程,直接进入南开大学媒体计算团队以及国家人工智能学院等合作院校团队推免生招收面试的最后一轮。

一、专题介绍

1.1 研究背景

在人类的感知系统中,不同感官获取的信息相互补充,共同构成了我们对世界的完整认知。例如,我们结合视觉和听觉来判断声源的位置和性质。图像融合(Image Fusion) 正是借鉴了这一思想,致力于将来自不同传感器(或称“模态”)的多张图像进行整合,生成一张信息更丰富、质量更高的单一图像。

最典型的应用场景是 红外与可见光图像融合(Infrared and Visible Image Fusion, IVIF)。可见光图像富含纹理细节和色彩,但在夜间或恶劣天气(如烟、雾)下效果不佳。而红外图像通过探测物体的热辐射成像,能够全天候工作并有效突显热源目标(如人、车辆),但它缺乏细节,且难以区分温度相近的物体。图像融合技术可以将两者的优势结合,生成既有红外目标突显、又有可见光丰富纹理的图像,极大增强了场景理解能力。

除了国防军事领域,图像融合在 自动驾驶、医疗诊断、遥感测绘 等多个领域也扮演着至关重要的角色。

1.2 研究意义

图像融合的目标不仅仅是“拼接”图像,更是为了创造出超越任何单一信息源的、对人类观察者或计算机视觉算法更有用的新图像。其核心意义在于:

  1. 增强感知与理解能力:融合后的图像能同时提供多维度的信息(如热量、纹理、结构),帮助人类或机器更准确地理解复杂场景。
  2. 提升下游任务性能:现代图像融合研究不再仅仅追求视觉效果,而是更关注能否显著提升 目标检测、语义分割、场景理解 等下游任务的精度和鲁棒性。这已成为该领域的前沿方向。
  3. 实现全天候、全天时工作:通过融合不同传感器的信息,可以克服单一传感器在特定环境下的局限性,保证系统在各种光照和天气条件下的可靠运行。
  4. 推动多模态学习发展:图像融合是多模态机器学习中的一个典型问题,其研究进展为处理和整合不同来源的数据提供了宝贵的理论和技术积累。

▲ 红外-可见光图像融合示例(CrossFuse):左上为红外图像,突出人物目标;左下为可见光图像,提供丰富纹理细节;右侧为融合结果,兼具两者优势,实现目标显著性与细节保真性的统一。

1.3 当前主要挑战

尽管图像融合技术已取得长足进步,但仍面临诸多挑战,这些挑战也正是当前研究的热点:

  1. 挑战一:信息保留与伪影抑制的权衡

    • 如何在融合过程中有效提取并保留各源图像的互补特征(如红外热目标和可见光细节)?
    • 如何避免在融合过程中引入不自然的视觉伪影或丢失关键信息?这是一个经典且核心的难题。
  2. 挑战二:从“视觉友好”到“任务驱动”的范式转变

    • 传统融合方法多以提升人类主观视觉感受或信息熵等数学指标为目标。
    • 现代研究更强调 任务导向(Task-Driven),即融合算法的设计应直接服务于下游任务,通过提升任务性能来衡量融合效果的好坏。 这一转变对算法设计和评估标准都提出了新的要求。
  3. 挑战三:应对现实世界中的不完美数据

    • 非对齐(Unaligned):同一场景的多模态图像常因传感器位置或物体移动而错位,如果不处理就会出现重影,需要在融合前或融合时做对齐。
    • 非配对(Unpaired):很多情况下没有严格对应的图像对,甚至只有单一模态样本,需要用无监督或生成式方法来学习跨模态关系。
  4. 挑战四:通用性与适应性的探索

    • 能否设计一个通用的融合框架,使其能够适应不同的模态组合和应用场景?
    • 近期有研究尝试引入 指令驱动(Instruction-Driven) 的思想,让模型根据不同的指令(如“突出目标”或“增强细节”)动态调整融合策略,增加了模型的灵活性和实用性。
  5. 挑战五:评估标准的缺失与重构

    • 由于不存在绝对的“真值”(Ground-Truth)融合图像,如何客观、全面地评价融合算法的性能一直是个难题。
    • 研究者们正在重新思考评估体系,倡导将下游任务的性能作为核心评价标准,并结合无参考图像质量评价指标。

二、学习资料与参考文献

为了引导新芽学子逐步进入研究,本专题结构分为以下四部分:


2.1 基础教材与学习材料

在开始探险之前,你需要掌握一些基础的“内功心法”,这些是后续一切学习的基石。以下是你可以使用的一些书籍/教程

此外,你也可以使用一些入门工具

Tips:务必摆脱所有基础都打好后,再进行下一阶段学习的心态,在干中学,遇到不明白的再回溯补基础。


2.2 入门文献(基础融合框架与方法)

面向初学者,帮助理解深度学习图像融合的基本架构、训练策略。仅用于入门,不可选择此部分文献汇报

  • RFN-Nest: An End-to-End Residual Fusion Network for Infrared and Visible Images (Information Fusion 2021)
    残差型端到端融合网络,提升融合结果细节保真度。

  • DeepCNN-Fusion: Deep Convolutional Neural Network for Multi-Modal Image Restoration and Fusion (TPAMI 2020)
    早期端到端深度学习融合方法,适合入门学习。

  • FusionGAN: A Generative Adversarial Network for Infrared and Visible Image Fusion (Information Fusion 2019)
    采用GAN进行图像融合的早期尝试。

  • SUFT:Symmetric Uncertainty-Aware Feature Transmission for Depth Super-Resolution (MM 2022) 利用对称不确定性感知机制优化深度图像特征传递,提高深度超分辨率精度。

  • DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs (ICCV 2017)
    无监督曝光融合方法,展示深度学习在低监督场景的潜力。

  • A Dual-branch Network for Infrared and Visible Image Fusion(ICPR 2021) 提出一种双分支自编码器融合网络,通过特征分解与新设计的损失函数。

2.3 进阶文献(任务驱动与自监督方法)

聚焦于 “融合+任务” 的联合优化、自监督学习、跨模态配准。学生可在此部分选择进阶文献进行专题汇报,或自行查找最新的同类重要文献。

融合表征提升 / 特征增强

这一类研究的目标是提升融合特征本身的表达能力,而不是直接解决下游任务。通过更好地建模跨模态关系、利用频域信息、多尺度注意力等方法,得到更高质量的融合表示,从而为检测、分割等下游任务提供更有力的输入。

  • Probing High-Order Interaction: Synergistic High-Order Interaction in Fusion (CVPR 2024) 建模跨模态高阶交互,提升特征融合表现。

  • Frequency-aware Feature Fusion: Frequency-Aware Feature Fusion for Dense Image Prediction (TPAMI 2024) 显式分离频域特征,提高密集预测任务表现。

  • MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders via Guided Training (TIP 2025) 基于MAE预训练特征迁移的融合框架,提升泛化能力。

  • ChitNet: Complementary to Harmonious Information Transfer Network for Infrared and Visible Image Fusion (TIM 2025) 强调互补信息的和谐传递,提高细节保真度。

  • MATCNN: Multi-scale CNN with Attention Transformer for Infrared and Visible Image Fusion (TIM 2025) 多尺度卷积与注意力Transformer结合,强化多层次特征。

  • CrossFuse: Cross Attention Mechanism based Fusion Approach (Information Fusion 2024) 引入跨注意力机制,提升模态间特征交互。

  • Unsupervised-MisalignFusion: Unsupervised Misaligned Infrared-Visible Fusion via Cross-Modality Generation and Registration (IJCAI 2022) 无监督处理配准误差,提升融合稳健性。

  • CoMatch: Dynamic Covisibility-Aware Transformer for Bilateral Subpixel-Level Semi-Dense Matching (ICCV 2025) 动态协视匹配,提升跨模态对齐精度。

  • SimpleFusion: A Simple Fusion Framework for Infrared and Visible Images (arXiv 2024) 轻量化、简洁的端到端融合基线。

任务驱动型融合

这类研究强调“融合不仅为融合”,而是直接面向下游任务(检测、分割、去模糊等)进行联合优化。相较先做融合再做任务,这类任务将融合作为任务优化的一部分,以实现更好的感知性能和泛化能力。

  • E2E-MFD: towards end-to-end synchronous multimodal fusion detection()(NeurIPS2024 Oral)
    端到端多模态同步融合检测,创新性强,值得优先阅读。

  • MRFS: Mutually Reinforcing Image Fusion and Segmentation (CVPR 2024) 联合优化融合与分割,互相提升性能。

  • DCEvo: Discriminative Cross-Dimensional Evolutionary Learning for Infrared and Visible Image Fusion (CVPR 2025) 提出跨维度演化学习框架,提升融合的判别能力。

  • S4Fusion: Saliency-aware Selective State Space Model for Infrared and Visible Image Fusion (TIP 2025) 引入状态空间建模与显著性选择,提高目标感知的融合效果。

  • Dif-fusion: Toward High Color Fidelity in Infrared and Visible Image Fusion with Diffusion Models (TIP 2023) 利用扩散模型实现高保真度的红外-可见光融合,特别提升颜色一致性。

  • DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once (TIM 2025) 统一建模可见光去暗化与融合过程,提升夜间场景性能。

  • SODFormer: Streaming Object Detection with Transformer Using Events and Frames (TPAMI 2023)
    基于事件与帧的联合建模,提出流式目标检测 Transformer,实现高效事件驱动检测。

  • Bi-level Dynamic Learning: Jointly Multi-modality Image Fusion and Beyond (ICCV 2023) 双层动态优化策略,兼顾融合效果和泛化能力。

  • Cross-Modal Attention Deblur: Event-Based Fusion for Motion Deblurring with Cross-Modal Attention (ECCV 2022)
    用跨模态注意力机制对齐并融合事件流和模糊图像,有效恢复清晰图像细节,适用于高速运动场景。

  • LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion (CVPR 2023) 融合点云和图像信息,设计局部到全局的跨模态特征交互模块,显著提升3D目标检测的精度和鲁棒性。

数字摄影 / 遥感融合

这一方向聚焦于实际应用场景,如多曝光图像融合、遥感图像全色锐化。研究趋势从传统的多尺度图像处理逐渐转向深度学习框架,特别是Transformer和GAN,用以提高细节保真度和色彩一致性,兼顾真实感和效率。

  • TransMEF: Transformer-Based Multi-Exposure Image Fusion using Self-Supervised Multi-Task Learning (AAAI 2022) 基于Transformer的多曝光融合,自监督优化。

  • PSGAN: Generative Adversarial Network for Remote Sensing Image Pan-Sharpening GAN框架实现遥感图像全色锐化。

三、结语与期望

“新芽计划”的初衷是点燃新芽学子对未知探索的热情,并为大家提供一片成长的沃土。图像融合是一个典型的交叉学科领域,它不仅是计算机视觉和信号处理的经典问题,更是通往多模态智能感知的关键桥梁。它既有深刻的理论内涵,又有广泛的实际应用价值。

希望通过这个专题,新芽学子不仅能掌握多模态信息处理的前沿技术,更能培养从实际问题出发、以最终目标为导向的系统性思维。我们鼓励大家跳出“唯视觉效果论”的传统框架,去探索如何让融合技术真正为下游的智能任务赋能。

我们热切期待,在最终的汇报中,能看到大家闪耀着智慧火花的解读与创见!

Yimian Dai
Yimian Dai
Associate Professor

南开大学计算机学院副教授,专注于红外弱小目标检测、多模态视觉感知方向的研究。