新芽专题介绍:时序信号处理
此专题由非南开大学老师发布,选修南开大学 2025 秋《人工智能实践课-初级》课程的同学请勿选择此专题。非本课程选修同学可自由选择。
一、专题介绍
1.1 研究背景
随着社会信息化和智能化进程的不断推进,各个领域产生了日益丰富的海量时序数据,如:电力变压器数据、气候变化数据、交通流量数据,这些数据反映了某一现象或系统随时间变化的状态或趋势,对其进行时间序列分析,对于分析、理解现象变化和系统行为具有重要意义。
1.2 研究意义
随着信息技术迅猛发展,时序数据在规模与维度上爆发式增长,多维时间序列预测已在多领域凸显应用价值。
- 电力能源领域: 依托电压、电流等传感器数据实现短期负荷预测,精准分析电力供需与调度,助力合理安排发电计划,提升电网稳定性与资源利用率。
- 交通领域: 通过预测车速、车流量等数据动态判断道路拥堵,辅助交通部门优化管理策略。
- 军事领域: 其更具战略意义 —— 借助敌方舰艇、战机等目标的历史位置数据,预判行动轨迹,为防空与导弹拦截系统提供决策支持,提升拦截率。
因此,这一研究主题不仅意义重大,而且是深度学习一个重要的领域分支,通过逐步了解该领域前沿信息,非常适合作为一个研究核心。
1.3 当前挑战
尽管方向重要,但时间序列分析领域仍然面临多重挑战:
- 挑战一:噪声、异常和离群值
- 真实世界的时间序列数据通常是从复杂的传感器或系统中收集的,不可避免地会包含噪声、异常点和离群值。这些低质量的数据会严重影响模型的性能和预测的准确性。
- 挑战二:泛化性与可移植性
- 与计算机视觉中的像素或自然语言处理中的词元不同,时间序列没有标准化的统一语义单元。不同场景下的相同数值可能代表完全不同的物理意义。
- 挑战三:长期序列预测
- 在长序列中,有效捕捉长期依赖关系非常困难。此外,在迭代预测过程中,误差会不断累积,导致长期预测的精度显著下降。
- 挑战四:多变量依赖建模
- 收集到的时间序列数据通常是多变量的(即包含多个通道或特征),这些变量之间存在复杂的跨通道依赖关系(如因果关系或领先/滞后关系)。
- 挑战五:外生变量建模
- 现实世界的系统并非封闭系统,其变化常受到外部因素(如天气、政策、节假日、宏观经济指标)的影响。
综上,时间序列分析领域仍在探索突破阶段。
二、学习资料与参考文献
本专题结构分为以下三个部分:
2.1 基础教材与学习材料
在开始探险之前,你需要掌握一些基础的“内功心法”,这些是后续一切学习的基石。以下是你可以使用的一些书籍/教程:
- 李沐《动手学深度学习》——适合中文初学者的深度学习教材,以及课程系列视频
- 《Deep Learning》(Ian Goodfellow 等)——深度学习入门经典教材
- PyTorch 官方教程,也可以使用 PyTorch 中文文档
此外,你也可以使用一些入门工具:
- Google Colab:免费云平台,不用安装软件,就能跑PyTorch代码。
- Kaggle平台:免费数据集和竞赛
Tips:务必摆脱所有基础都打好后,再进行下一阶段学习的心态,在干中学,遇到不明白的再回溯补基础。
2.2 入门文献
这部分内容总共分为三部分: (1) 综述文献,帮助初学者初步了解该领域; (2) 专用时序预测模型和自监督时序预测模型则简要将大模型出现前的时序预测模型划分,初学者通过其初步了解不同类别的模型在训练流程和实现上差别。
(1) 综述文献
《Deep Time Series Models: A Comprehensive Survey and Benchmark》
上述文章是了解时间序列分析领域很好的一篇综述文章,可以帮助初学者初步了解时间序列分析的定义、任务类型、模型简要分类以及存在的一些挑战性问题。
(2) 专用时序预测模型
现有的时序预测模型多数是基于Transformer改进的。下列文章中,其中 “-former” 代表着基于Transformer的方法,其余则为非Transformer的方法。
(3) 专用时序预测模型
2.3 进阶文献(时间序列大模型方向)
(1) 单模态、从零训练大模型
(2) 单模态、迁移其他领域大模型
(3) 多模态大模型
三、学习任务
3.1 基本知识学习
- 请阅读提供的综述文章或另寻找相关综述文章,明确时间序列分析问题的定义、任务类型,方法分类及每种方法的优缺点。
- 挑选几篇工作,比较各类方法训练方式、使用场景、场景性能等的差异性。
- 简要构建学习图谱
3.2 基础任务
一部分研究尝试通过构建符合时间序列数据特性的大模型结构,并从海量时序数据中学习。受限于数据量和硬件条件,一部分研究尝试利用NLP领域预训练的大模型微调适应时序数据,CALF是其中一项研究。
任务: 阅读、理解CALF核心思想,复现CALF预测任务,形成条理清晰的PDF报告。
报告要求:
- 第一部分:给出CALF的模型目标、文章动机(或要解决怎样的问题)、模型训练/测试数据流过程。
- 第二部分:代码复现展示;复现实验结果展示、结果分析;与原文实验结果对比,是否存在差异,若存在,则差异是由什么造成的
- 第三部分:结合自己复现过程,给出2~3个自己的思考内容。
3.3 进阶任务
CALF原文只对时序预测任务进行了实验性能验证,思考CALF是否能够应用到分类任务中。若能,则应当怎样修改模型模块结构,使得其适配时序分类任务。
任务1: 实现CALF对公开数据集的分类任务
任务2: 实现CALF对雷达数据的分类任务
要求:
- 形成一个简要报告、不要求如基础任务一样详细的任务报告。
- 报告内容主要包含对模型修改的修改思路和实现方式,和结果分析。
四、结语与期望
当你完成这个专题的学习,从平稳性检验到ARIMA建模,再到接触前沿的时序大模型,你已掌握了跨越传统与现代的时序分析能力。时序领域正在发生深刻变革,期待你以扎实根基拥抱变化,让数据不仅解释过去,更能照亮前路。站在时序分析的新起点,愿你从规律中看见趋势,在波动里发现先机。