新芽专题介绍：遥感视觉定位

Last updated on Oct 2, 2025

此专题由非南开大学老师发布，选修南开大学 2025 秋《人工智能实践课-初级》课程的同学请勿选择此专题。非本课程选修同学可自由选择。

一、专题介绍

1.1 研究背景

遥感视觉定位旨在让AI模型根据自然语言描述在遥感图像中准确地定位（以水平框、旋转框或像素级掩码的形式）所指代的特定目标或区域。该技术极大地增强了人机交互的直觉性和效率，是构建下一代智能遥感解译系统的基石。

1.2 研究意义

遥感影像具有俯瞰视角、尺度多变、目标密集、背景复杂等特点，这使得许多为自然图像设计的多模态模型难以直接应用，也赋予了遥感视觉定位独特的研究价值和挑战。成功的遥感视觉定位技术能直接应用于：

军事与安全：快速定位和识别感兴趣的军事设施、装备部署，支持情报分析和战场态势感知。
灾害应急响应：根据无人机图像快速定位受灾区域和民众，指导救援行动。
城市管理：助力智慧交通以及城市数字化管理。

因此，这一研究主题不仅意义重大，而且是多模态学习和遥感科学的交叉研究领域的一个典型研究案例，非常适合作为本科生进入科研领域的启蒙训练。

▲一个典型的遥感视觉定位示意图：目标占比极小，对多模态理解能力要求较高。

1.3 当前主要挑战

尽管前景广阔，但实现高精度的遥感视觉定位仍面临诸多严峻挑战：

挑战一：目标尺度差异巨大，显著性低
- 遥感图像从千米级宏观场景到米级精细地物并存，目标尺度跨度极大。
- 许多感兴趣目标（如特定车辆、小型建筑）在图像中占比小，纹理和细节特征微弱，极易被复杂背景或同类地物淹没。
挑战二：空间关系复杂，描述歧义性强
- 自然语言描述中充满了“左上角”、“A和B之间”、“河流北岸”等相对空间关系，要求模型对空间几何和方位有深刻理解。
- 同一场景可能存在多个相似物体，描述中的细微差别（如“较小的那座雷达站”）需要模型具备极强的分辨和推理能力。
挑战三：输出形式多样，需统一框架
- 实际应用中对定位精度的要求不同，需要模型能灵活输出水平边界框、定向边界框或精确的分割掩码。
- 传统的专用模型通常只为一种输出形式设计，难以泛化。设计一个能统一处理多种定位任务的框架是一项重要挑战。

因此，遥感视觉定位是一个充满机遇的研究方向，它既需要解决实际的应用难题，也推动着多模态人工智能技术的前沿探索，非常适合作为深入科研的切入点。

二、学习资料与参考文献

为了引导新芽学子逐步进入研究，本专题结构分为以下四部分：

2.1 基础教材与学习材料

在开始探险之前，你需要掌握一些基础的“内功心法”，这些是后续一切学习的基石。以下是你可以使用的一些书籍/教程：

李沐《动手学深度学习》——适合中文初学者的深度学习教材，以及课程系列视频
《Deep Learning》（Ian Goodfellow 等）——深度学习入门经典教材
PyTorch 官方教程，也可以使用 PyTorch 中文文档
《Pattern Recognition and Machine Learning》（Christopher M. Bishop）——机器学习原理入门（难度不小）

此外，你也可以使用一些入门工具：

Google Colab：免费云平台，不用安装软件，就能跑PyTorch代码。
Kaggle平台：免费数据集和竞赛

Tips：务必摆脱所有基础都打好后，再进行下一阶段学习的心态，在干中学，遇到不明白的再回溯补基础。

2.2 入门文献（视觉定位经典方法）

学生第一阶段的阅读训练，可帮助理解目标检测/语义分割/关键点检测这一通用方向。仅用于入门，不可选择此部分文献汇报。

RefCOCO: Modeling context in referring expressions (ECCV 2016)
TransVG: TransVG: End-to-End Visual Grounding with Transformers (ICCV 2021)
GLIP: Grounded Language-Image Pre-training (CVPR 2022)
GRES: GRES: Generalized Referring Expression Segmentation (CVPR 2023)
TransVG++: End-to-End Visual Grounding With Language Conditioned Vision Transformer (T-PAMI 2023)
Dynamic MDETR: Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding (T-PAMI 2024)

2.3 进阶文献（遥感视觉定位方法）

结合本专题的研究背景，逐渐引导学生进入遥感视觉定位。学生可在此部分选择进阶文献进行专题汇报，或自行查找最新的同类重要文献。
遥感视觉定位可分为区域级和像素级两种。

区域级遥感视觉定位

RSVG: Visual Grounding in Remote Sensing Images (ACM MM 2022)
DIOR-RSVG: RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data (TGRS 2023)
GeoText-1652: Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching (ECCV 2024)
RSVG-HR: Language Query-Based Transformer With Multiscale Cross-Modal Alignment for Visual Grounding on Remote Sensing Images (TGRS 2024)
OPT-RSVG: Language-Guided Progressive Attention for Visual Grounding in Remote Sensing Images (TGRS 2024)
AerialVG: AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations (arXiv 2025)
RefDrone: RefDrone: A Challenging Benchmark for Referring Expression Comprehension in Drone Scenes (arXiv 2025)

像素级遥感视觉定位

RRSIS: RRSIS: Referring Remote Sensing Image Segmentation（TGRS 2024)
RMSIN: Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation (CVPR 2024)
CroBIM: Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation (arXiv 2024)
RemoteSAM: RemoteSAM: Towards Segment Anything for Earth Observation (arXiv 2025)
NWPU-Refer: A Large-Scale Referring Remote Sensing Image Segmentation Dataset and Benchmark (arXiv 2025)

2.4 基于多模态大模型的视觉定位相关文献

结合本专题的研究背景，逐渐引导学生进入最新的基于多模态大模型的遥感视觉定位。学生可在此部分选择进阶文献进行专题汇报，或自行查找最新的同类重要文献。

Text4Seg：Text4Seg: Reimagining Image Segmentation as Text Generation (ICLR 2025)
GeoGround：GeoGround: A Unified Large Vision-Language Model for Remote Sensing Visual Grounding (arXiv 2024)
GeoPix：GeoPix: Multi-Modal Large Language Model for Pixel-level Image Understanding in Remote Sensing (GRSM 2025)
GeoPixel：GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing（ICML 2025)
AirSpatialBot: AirSpatialBot: A Spatially Aware Aerial Agent for Fine-Grained Vehicle Attribute Recognition and Retrieval (TGRS 2025)
SegEarth-R1: SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model (arXiv 2025)
RemoteReasoner：RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow (arXiv 2025)

三、结语与期望

“新芽计划”旨在播撒科研的种子，培育探索的精神。遥感视觉定位是一个融合了计算机视觉、自然语言处理和遥感科学的交叉研究领域，它不仅技术挑战性强，而且具有明确且重要的应用价值。

我们热切期待，在最终的汇报中，能看到大家对这个充满挑战的领域展现出独到的见解和创新的火花！