新芽专题介绍:通用图像恢复
此专题由非南开大学老师发布,选修南开大学 2025 秋《人工智能实践课-初级》课程的同学请勿选择此专题。非本课程选修同学可自由选择。
一、专题介绍
1.1 研究背景
在图像的采集、压缩、传输和存储等各个环节中,多种退化因素不可避免地导致其视觉质量下降。这些退化类型复杂多样,主要包括由设备抖动或目标运动引起的运动模糊、低光照环境带来的随机噪声、镜头失焦或对焦失败产生的散焦模糊、有损压缩算法导致的块效应与振铃伪影、以及分辨率不足所致的低清晰度等。传统的图像恢复研究长期以来遵循着“One-by-One”的范式,即为噪声、去模糊、超分辨率、去压缩伪影等每一种特定的退化任务设计独立的专用模型。尽管这些单一任务模型在各自领域取得了显著进展,但它们存在明显的局限性:模型冗余度高、计算资源消耗大,且在实际应用场景中,图像所遭受的退化往往是多种因素交织在一起的混合退化,单一模型难以应对这种复杂情况,严重制约了其实用性与部署效率。
为了解决上述问题,通用图像恢复算法应运而生。通用图像恢复(All-in-One Image Restoration,简称 AiOIR)旨在通过单一模型处理多种图像退化问题(如去噪、去雨、去雾等),显著提升了模型的灵活性与实用性。相较于传统单退化图像恢复模型,通用图像恢复技术无需针对每种退化独立训练专用网络,避免了多个模型、多次训练的冗余,更适配真实场景中多退化并存的复杂性。近年来,随着人工智能的迅猛发展,出现了卷积神经网络(Convolutional Neural Networks, CNN)、Transformer等众多基础框架,并基于这些框架诞生了一系列多退化通用图像复原方法。这些方法致力于通过提示词学习、混合专家学习、大模型先验引导等策略使得模型能够有效处理不同的退化任务,取得了许多令人印象深刻的结果。
1.2 研究意义
通用图像恢复研究代表了底层计算机视觉领域从孤立、专用的解决方案向统一、智能模型范式的重大范式转变,其意义主要体现在以下几个方面:
- 更有效地应对真实世界中的复杂混合退化: 真实世界中的低质量图像通常是多种退化组成。传统的单一任务模型在处理这种混合退化时性能会急剧下降,因为它们是为处理特定、已知的退化而设计的。通用图像恢复模型的研究目标就是让模型具备识别和联合处理未知混合退化的强大能力,从而填补了理想条件与真实应用场景之间的巨大鸿沟,显著提升了在复杂条件下输出高质量图像的鲁棒性和可靠性。
- 探索视觉基础模型与统一框架: 类似于自然语言处理中的大语言模型能够处理各种任务,通用图像恢复旨在建立一个能够理解并解决多种底层视觉问题的统一框架。这项研究推动了对图像退化本质、图像先验以及网络架构通用性的深入理解,所发展的技术(如条件调制、任务提示等)可能泛化到其他视觉任务,为构建能够“理解”并“修复”视觉世界的基础模型奠定理论和技术基础。
- 推动对图像先验与退化本质的统一理解: 从理论研究层面看,致力于构建一个通用模型迫使研究者们不再孤立地看待各种退化问题,而是需要去寻找不同退化任务之间共通的图像先验(如局部平滑性、非局部自相似性、稀疏性等)以及它们之间的内在联系。这种努力促进了对于图像形成模型和退化本质更深刻、更统一的理论理解。如何设计网络架构以自适应地利用这些先验来处理不同退化,本身就是一个极具挑战性和前瞻性的研究课题,推动了底层视觉领域的理论创新。
- 实现模型实用化与高效部署: 传统单一任务的图像恢复模型需要针对不同退化(如去噪、去模糊、超分)训练和存储多个独立模型,导致计算资源占用高、存储空间需求大且部署复杂。通用图像恢复模型的核心意义在于,它用一个统一的模型替代了多个专用模型,极大地减少了参数量和计算开销。这使其更易于集成到存储和算力受限的实际应用中,如移动手机、嵌入式设备和云服务器,显著提高了模型的部署效率和实用性,是技术走向规模化应用的关键一步。
1.3 主要挑战
通用图像恢复尽管研究前景广阔,但其发展面临着来自模型设计、学习策略和实际应用等多个层面的严峻挑战。具体而言,其主要挑战主要可以归纳为以下四点:
- 任务冲突与负迁移: 不同的恢复任务(如去噪和超分)可能对网络特征的需求存在本质上的矛盾。例如,去噪任务需要平滑均匀区域,而超分任务则需要增强高频纹理细节。在一个共享的主干网络中,如果特征表示没有得到妥善分离或引导,学习一个任务的知识可能会干扰甚至损害其他任务的性能,这种现象称为“负迁移”。设计能够有效解耦任务特定特征与共享特征的机制,是通用模型成功的关键。
- 退化空间的复杂性高: 真实世界的退化类型繁多,且通常以未知、随机的组合方式混合存在,这使得退化空间极其复杂。如何感知多种未知的混合退化是算法设计的一大挑战。
- 灵活性与计算效率的平衡难: 虽然目标是“一个模型”,但不能简单地将其设计成一个大而全的“庞然巨物”。如何在保持强大性能的同时,控制模型参数量和计算开销,使其易于部署,并且能够在处理简单退化(如轻度噪声)时计算量小、速度快,而处理复杂退化(如严重模糊)时自动分配更多计算资源,是一个较大的挑战。
- 对高质量训练数据过度依赖: 通用图像恢复模型需要大规模、多样化的配对数据进行训练。然而合成数据与真实数据之间的域差异较大,且难以获取大量真实配对数据,制约了模型在真实场景中的性能上限。
上述四个挑战相互关联,共同构成了通用图像恢复研究道路上的主要障碍,也是当前该领域研究集中攻坚的方向。
二、学习资料与参考文献
2.1 基础教材与学习材料
为了便于初学者夯实基础,下面分享一些实用的教程:
- 李沐《动手学深度学习》——适合中文初学者的深度学习教材,以及课程系列视频。
- 《Deep Learning》——深度学习入门经典教材。
- PyTorch 官方教程,也可以使用 PyTorch中文文档。
- 《Pattern Recognition and Machine Learning》——机器学习原理入门。
此外,也可以使用一些入门工具:
- Colab - Colab:免费云平台,不用安装软件,就能跑PyTorch代码。
- Kaggle平台:免费数据集和竞赛
2.2 综述文献
《A Survey on All-in-One Image Restoration:Taxonomy, Evaluation and Future Trends》:这篇TPAMI综述总结了All-in-One图像增强领域的方法分类,可以帮助初学者快速理解该领域。
这篇综述还对All-in-One文章查找提供了一个非常方便的平台:GitHub 地址。该网页会不定期更新最新的All-in-One工作。
2.3 入门资料
从网络模型上看,现有的All-in-One工作可以分为基于Transformer的方法和基于Diffusion的方法,这两类方法分别介绍一些入门学习资料。
(1) 基于Transformer的方法
- Transformer基本原理: Transformer原理详解(简要了解即可)
- 基于Transformer的One-by-One图像复原工作:Restormer(CVPR22)(精读,后续的基于Transformer的All-in-One工作几乎都是在这个网络架构的基础上修改的)
- 基于Transformer的All-in-One图像复原工作:PromptIR(NIPS23)(精读,很经典的一个基于Transformer的All-in-One工作)
(2) 基于Diffusion的方法
- 生成扩散模型漫谈(一):DDPM = 拆楼 + 建楼 - 科学空间|Scientific Spaces(精读,详细介绍了Diffusion的基本原理)
- 扩散模型之DDPM - 知乎(简要了解即可,DDPM变体)
- 扩散模型之DDIM - 知乎(简要了解即可,DDPM变体)
- DDNM之探索图像逆问题的本质:零值域分解 - 知乎(简要了解即可,无监督DDPM)
- Diffusion 和Stable Diffusion的数学和工作原理详细解释 - 知乎(精读,潜空间DDPM)
- RDDM(CVPR24)(精读,残差空间DDPM)
- AutoDIR(ECCV24)(精读,基于残差空间DDPM的All-in-One工作)
- DiffUIR(CVPR24)(精读,基于残差空间DDPM的All-in-One工作)
三、学习任务
3.1 All-in-One领域基本知识学习
- 请详细阅读综述,请详细总结现有的All-in-One方法大致可以分为哪几类,每类方法的优势是什么(泛化性,高效性等),又存在哪些不足。
- 请详细阅读以上几篇All-in-One工作,总结基本的实验设定是什么(在哪些任务上测试,每个任务的数据集基本情况,是否有在挑战场景上进行验证等)。
- 撰写学习笔记。
3.2 代码复现
上述2.3中展现的文献都是具备开源代码的,挑选基于Transformer的方法和基于Diffusion的方法各一个进行复现(有条件可以尝试进行训练)。
要求:形成有展示度的报告
- 报告中应该展示模型整体的数据流,输入是什么,怎么经过网络一步一步得到输出结果的。
- 请总结这篇文章相比于其他的All-in-one文章的创新点在哪,做了哪些改进?(尝试在Introduction和Related Work里寻找答案,加上自己跑实验的一些感悟)
- 报告中应该包含对所复现方法的实验结果以及代码展示,以及对实验结果的分析,注意总结的逻辑性和条理性。
- 报告建议以PDF格式提交,代码使用pytorch环境(建议pycharm+anaconda)。
- 思考:当不同任务存在冲突时,如何优化任务间的信息共享?(e.g. 图像去模糊任务旨在估计缺失的高频信息,而图像去噪任务旨在去除高频噪点,这两个任务在频域上看相互排斥(一个强化高频,一个去除高频),如果想要训练一个能通用处理去模糊和去噪的all-in-one大模型,该怎么设计呢?)
3.3 进阶场景
2.3中展现的文献都只考虑了单图单退化情形,即每张图像仅存在一种退化。当一张图像存在多种退化时(例如单图同时存在雨、雾、噪声退化),又该做怎样的设计呢?
CDD-11数据集将降雨、雾霾、降雪和低光照作为独立的退化类型,并对上述四种退化进行组的,得到多种复合退化场景,共形成十一种不同的恢复任务,如下图所示。

任务如下(对计算资源要求较高):
- 挑选基于Transformer的方法和基于Diffusion的方法各一个,使用CDD-11作为测试集进行相关代码复现(PromptIR有预训练权重:pretrained_PromptIR,基于Diffusion的方法无预训练权重,需自行训练)
- 尝试对复现方法做一些修改,以增强网络在复合退化场景中的性能,并分析修改的有效性。