📄【TGRS 2025】MoCoLSK:基于模态条件的地表温度高分辨率降尺度方法

戴群, 袁春阳, 戴一冕, 李宇轩, 李翔, 倪康, 许剑辉, 舒祥波, 杨健
arXiv 地址:https://arxiv.org/abs/2409.19835
开源地址:https://github.com/GrokCV/GrokLST
一句话概括本文:
我们开源了首个为地表温度降尺度设计的高分辨率开源基准数据集 GrokLST ,并开发了一个包含40多种降尺度(超分)方法的工具箱——GrokLST Toolkit。不仅如此,我们还提出了一种模态条件大选择性卷积核网络 MoCoLSK-Net,能够动态融合高分辨率引导信息,以显著提升重建性能。
关键术语解释:

1. 地表温度(Land Surface Temperature,LST)是什么? 地表温度即地球表面区域的温度。
2. 什么是降尺度 (Downscaling)? 降尺度技术类似于计算机视觉领域的超分辨率,即将低分辨率图像重建为高分辨率图像,如图1所示。
3. 地表温度降尺度(Land Surface Temperature Downscaling)是什么? 本质上是将低分辨率的地表温度数据重建为高分辨率地表温度数据。
4. 引导地表温度降尺度(Guided Land Surface Temperature Downscaling)是什么? 利用同一时间和区域的其他高分辨率模态数据(如光学图像等)作为引导信息,以辅助低分辨率地表温度数据的重建,如图1所示。
研究背景
地表温度(Land Surface Temperature, LST)作为地表与大气间物质与能量交换的核心物理参数,在评估生态和气候变化动态方面具有重要作用 [1]。LST 数据广泛应用于多个领域 [2] [3],包括气象监测与预报、城市热岛效应分析、农业监测、自然灾害评估和蒸散发速率估算等,是遥感、生态学和气候学等学科进行环境监测和研究的关键依据(如图 2 所示)。有关更多应用场景,请点击链接 1和链接 2。
为了确保对地表温度分析的准确性,获得高分辨率的 LST 数据至关重要。然而,直接获取高时空分辨率的 LST 数据却并非易事,因为研究先进的成像设备并发射到太空的成本不菲且周期长。另外一种间接的低成本方式就是开发降尺度算法,直接重建低分辨率的 LST 数据以获得期望的高分辨率 LST 数据。该领域发展缓慢的主要原因可能要归咎于相关开源数据集和工具箱的缺乏。
相关数据集和工具箱的匮乏

近年来,深度学习技术已被广泛应用于提高地表温度分辨率的研究中,成为降尺度的有效方案 [4]。这些方法借助深度神经网络的特征提取能力,建模输入数据与目标输出之间的复杂关系。然而,相关高质量数据集和工具箱的缺乏极大限制了地表温度降尺度领域繁荣发展的脚步。
高分辨率地表温度(HR LST)数据的获取长期以来受到卫星遥感技术中时间分辨率和空间分辨率的权衡限制。例如,Landsat 8 提供 100 米的空间分辨率,但重访周期为 16 天 [5],而 MODIS 尽管能够实现单日两次观测,但空间分辨率较低,仅有 1 公里 [6]。这种权衡限制了高时空分辨率 LST 数据的获取。

近年来,我国航空航天领域发展迅猛,取得了一系列突破性进展。2021 年 11 月 5 日,SDGSAT-1 卫星在我国太原卫星发射中心成功发射。该卫星搭载了热红外、微光和多光谱成像仪三个有效载荷。热红外成像仪可通过 30 米分辨率检测地表温度变化(精度达 0.2℃),微光成像仪实现了全球首次同时获取 10 米全色与 40 米彩色微光影像的能力,多谱段成像仪则通过增加红边和深蓝波段来监测植被生长和水质状况。SDGSAT-1 卫星的发射,使得高分辨率(30 米)地表温度数据的获取成为了现实。点我查看更多关于 SDGSAT-1 卫星的详细信息。
尽管深度学习技术已在图像分类、目标检测、语义分割和图像超分辨率等多个领域取得了显著进展,地表温度降尺度领域的发展仍然滞后。这种滞后主要归因于缺乏高质量的数据集和专用工具箱。据我们所知,目前尚无任何公开可用的高分辨率地表温度降尺度数据集和工具箱。 为推动地表温度降尺度领域的发展,我们开源了首个 高分辨率地表温度降尺度数据集——GrokLST 数据集,以促进相关研究的快速发展。数据集的相关信息请参见下文 GrokLST 数据集 章节。 不仅如此,我们还发布了一个地表温度降尺度工具箱——GrokLST Toolkit,涵盖了 40 多种降尺度算法,旨在进一步推动地表温度降尺度领域的进展。
现有基于深度学习的降尺度方法
除了传统的降尺度方法 [7][8](本文主要关注基于深度学习的方法),目前用于 LST 降尺度的深度学习模型可以分为单图降尺度方法和引导降尺度方法,如图1所示。
多数方法在设计上未充分考虑 LST 数据的特性及其面临的特殊挑战 [9]。随着热红外波段分辨率提升至超高水平(≤30 米),建筑物、道路等小尺度局部特征与水体、沙漠、草地等大尺度地表覆盖类型共存。这些局部特征容易与周围环境相互影响,从而增加了降尺度过程的复杂性。
通过对高分辨率 LST 数据的深入分析,我们发现现有方法的两大主要局限:
无法动态调整感受野:LST 的空间异质性要求模型能够根据不同尺度的温度变化灵活调整感受野,以精确捕捉局部温差。
单一多模态融合方式:现有方法在多模态辅助数据与 LST 特征的融合中多采用简单操作(如相加、相乘或拼接),无法揭示多模态数据中潜在的复杂依赖关系,导致特征增强效果有限,未能有效利用多模态数据的丰富信息。
基于以上发现,我们设计了 MoCoLSK-Net,该网络的细节见下文 MoCoLSK-Net 章节。
GrokLST 数据集

下载链接:
有关 GrokLST 数据集更多细节,可参考项目 GrokLST 的相关部分。
为填补地表温度降尺度数据集的空白,我们推出了 GrokLST 数据集。如图 5 所示,该数据集包含四种分辨率(即 30m、60m、120m 和 240m)的多模态数据,每组数据均包含 641 张 LR LST 数据及 10 种模态的高分辨率引导数据。这 10 种模态分别为:数字高程模型(Digital Elevation Model,DEM)、深蓝波段(Deep Blue)、蓝色波段(Blue)、绿色波段(Green)、红色波段(Red)、植被红边波段(Vegetation Red Edge,VRE)、近红外波段(Near Infrared,NIR)、归一化差值多光谱植被指数(Normalized Difference Multispectral Vegetation Index,NDMVI)、归一化植被指数(Normalized Difference Vegetation Index,NDVI)以及归一化水体指数(Normalized Difference Water Index,NDWI)。以上数据均为真实数据,而非仿真数据。

研究区域:如图 6 所示,本研究以黑河流域为重点区域。该流域为中国西北地区的第二大内陆河流域,位于东经 98° 至 101°、北纬 38° 至 42° 之间,地处河西走廊内,是甘肃省西部及青海省的主要内陆流域。
部分数据集细节如下:
| 分辨率 | 尺度 | LST 宽 / 高 | 引导数据 宽 / 高 |
|---|---|---|---|
| 30m | GT | 512/512 | 512/512 |
| 60m | x2 | 256/256 | 256/256 |
| 120m | x4 | 128/128 | 128/128 |
| 240m | x8 | 64/64 | 64/64 |
数据集的使用方式:
- 单图降尺度实验使用举例:使用 60m LST 数据作为网络输入,以 30m LST 数据作为 Ground Truth (GT),完成两倍 LST 降尺度任务;
- 引导降尺度方法实验使用举例:以 60m LST 和 30m 引导数据作为网络输入,将 30m LST 数据作为 GT,进行两倍的引导 LST 降尺度任务;
- 利用不同分辨率的数据,进行不同倍数的 LST 降尺度任务。
MoCoLSK-Net

我们提出了一种模态条件大选择性卷积核网络——MoCoLSK-Net,这是一个新型的多模态融合框架,能够动态整合高分辨率引导信息,从而提升 LST 的重建性能,如图 7 所示。

我们基于之前的工作 LSKNet (IJCV 2024)[10] 并将其改造成能实现多模态融合的结构,由此设计出了 MoCoLSK 模块。 如图 8 所示,MoCoLSK 模块由两个路径组成:大选择性核 (LSK) 路径和模态条件权重生成 (MCWG) 路径。
具体而言,在 LST 路径中,模块配置遵循原始 LSK 模块,但有两个关键区别:
1)空间选择掩码的生成通过 MCWG 路径提供的模态条件权重进行调制;
2)输出特征是两个模态特征融合的结果。
在 MCWG 路径中,通过金字塔池模块和 Dynamic MLP (CVPR 2022)[11] 模块将高分辨率 LST 特征与引导特征结合,动态生成模态条件卷积权重,用于调制 LSK 路径中空间掩模特征的生成。
更多细节请参考我们的论文:MoCoLSK: Modality Conditioned High-Resolution Downscaling for Land Surface Temperature。
实验结果
我们基于 GrokLST 工具箱,构建了一套全面的基准评价指标(RMSE、MAE、CC、BIAS 和 RSD)来评估当前主流算法以及 MoCoLSK-Net 在 GrokLST 数据集上的性能表现。我们测试了传统回归算法、单图降尺度算法(如 RDN[12])和 引导降尺度算法(如 RSAG[13])的效果,实验结果和可视化结果分别如图 9 和图 10 所示:


主要结论
- 通常情况下,重建性能表现为:传统回归算法 < 单图降尺度算法 < 引导降尺度算法;
- 尽管某些 单图降尺度算法(如 RDN[12])性能较佳,但基于单图降尺度算法在重建性能上限方面明显低于引导降尺度算法,例如 RDN[12] 的效果明显不如我们提出的 MoCoLSK-Net;
- 基于 Transformer 的算法与基于空间或通道注意力的卷积算法相比,并不具有明显优势。另外,多数 Transformer 算法仅存在于单图降尺度算法,而鲜有基于 Transformer 的引导降尺度工作,可能由于其不可忽视的难以忍受的巨大计算量;
- 无论是单图降尺度算法还是引导降尺度算法,其 LST 和 引导数据 都建议都采用 z-score 归一化方法。
致谢
感谢国际可持续发展目标大数据研究中心 (CBAS) 慷慨提供 SDGSAT-1 数据。
参考文献
[1]: Jia A, Liang S, Wang D. Generating a 2-km, all-sky, hourly land surface temperature product from Advanced Baseline Imager data[J]. Remote Sensing of Environment, 2022, 278: 113105.
[2]: Wang D, Chen Y, Hu L, et al. Modeling the angular effect of MODIS LST in urban areas: A case study of Toulouse, France[J]. Remote sensing of Environment, 2021, 257: 112361.
[3]: Bai Y, Bhattarai N, Mallick K, et al. Thermally derived evapotranspiration from the Surface Temperature Initiated Closure (STIC) model improves cropland GPP estimates under dry conditions[J]. Remote Sensing of Environment, 2022, 271: 112901.
[4]: Lanaras C, Bioucas-Dias J, Galliani S, et al. Super-resolution of Sentinel-2 images: Learning a globally applicable deep neural network[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 146: 305-319.
[5]: Ye X, Hui J, Wang P, et al. A Modified Transfer-Learning-Based Approach for Retrieving Land Surface Temperature From Landsat-8 TIRS Data[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-11.
[6]: Tang W, Zhou J, Ma J, et al. TRIMS LST: a daily 1 km all-weather land surface temperature dataset for China’s landmass and surrounding areas (2000–2022)[J]. Earth System Science Data, 2024, 16(1): 387-419.
[7]: Guo F, Hu D, Schlink U. A new nonlinear method for downscaling land surface temperature by integrating guided and Gaussian filtering[J]. Remote Sensing of Environment, 2022, 271: 112915.
[8]: Hu D, Guo F, Meng Q, et al. A novel dual-layer composite framework for downscaling urban land surface temperature coupled with spatial autocorrelation and spatial heterogeneity[J]. International Journal of Applied Earth Observation and Geoinformation, 2024, 130: 103900.
[9]: Sun Y, Deng K, Ren K, et al. Deep learning in statistical downscaling for deriving high spatial resolution gridded meteorological data: A systematic review[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2024, 208: 14-38.
[10]: Li, Y., Li, X., Dai, Y. et al. LSKNet: A Foundation Lightweight Backbone for Remote Sensing. Int J Comput Vis (2024).
[11]: Yang L, Li X, Song R, et al. Dynamic mlp for fine-grained image classification by leveraging geographical and temporal information[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 10945-10954.
[12]: Zhang Y, Tian Y, Kong Y, et al. Residual dense network for image super-resolution[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 2472-2481.
[13]: Yuan J, Jiang H, Li X, et al. Recurrent structure attention guidance for depth super-resolution[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2023, 37(3): 3331-3339.
