新芽专题介绍：汇报多维度质量检测

Last updated on Oct 3, 2025

选择此专题并在新芽系列课程中获得优秀的同学，可以免去前期筛选考核流程，直接进入南开大学媒体计算团队以及国家人工智能学院等合作院校团队推免生招收面试的最后一轮。

一、专题介绍

1.1 研究背景

汇报多维度质量检测肇始于自然语言文本评估、图像质量评估（IQA）、视频质量评估（VQA）等质量评估（QA）领域。由于在当下的工作需求、教育背景，PPT汇报的出现频率越来越高，人们越来越依赖PPT汇报手段进行表达。并且，在当下智能化需求增长的背景下，对汇报的自动化评估的研究蓬勃发展。“汇报多维度质量检测”旨在自动评估PPT/幻灯片质量与口头/视频汇报表现的多维指标，如版式与可读性、信息层次、配色对比、语音清晰度、节奏、肢体与目光、与幻灯片内容的一致性等。相关研究正在从“单模态启发式规则/打分”走向“多模态特征与大模型驱动”的方法，并开始出现专门面向幻灯片质量的数据集与标注体系（如 SlideAudit 等）。

1.2 研究意义

教学/培训/教育：为课堂、MOOC 与企业培训提供客观、可复现的质量评估与可操作反馈，降低人工评审成本。
内容生产与辅助创作：为“生成—评估—改进”闭环提供可度量目标（如幻灯片版式缺陷检测、口播节奏与停顿优化）

1.3 当前主要挑战

数据与可泛化性：真实课堂/会议场景差异巨大，模型易受领域偏移影响；多模态公开数据仍较有限
评价标准与可解释性：从单一分数走向维度化叙述与可解释评语，到如今大模型作为Judge。但是这些评价标准依然存在显著问题，不是很令人信服。
多维指标的定义与标注一致性：如何建立覆盖充分且互不冲突的幻灯片缺陷分类与口头表现指标，并获得稳定标注

二、学习资料与参考文献

为了引导新芽学子逐步进入研究，本专题结构分为以下四部分：

2.1 基础教材与学习材料

在开始探险之前，你需要掌握一些基础的“内功心法”，这些是后续一切学习的基石。以下是你可以使用的一些书籍/教程：

李沐《动手学深度学习》——适合中文初学者的深度学习教材，以及课程系列视频
吴恩达，DeepLearning.AI课程LLM微调大模型
《Deep Learning》（Ian Goodfellow 等）——深度学习入门经典教材
PyTorch 官方教程，也可以使用 PyTorch 中文文档
《Pattern Recognition and Machine Learning》（Christopher M. Bishop）——机器学习原理入门（难度不小）

此外，你也可以使用一些入门工具：

Google Colab：免费云平台，不用安装软件，就能跑PyTorch代码。
Kaggle平台：免费数据集和竞赛

Tips：务必摆脱所有基础都打好后，再进行下一阶段学习的心态，在干中学，遇到不明白的再回溯补基础。

2.2 入门文献（经典方法）

学生第一阶段的阅读训练，可帮助理解汇报多维度质量检测这一通用方向,具象化去了解“质量评估”。仅用于入门，不可选择此部分文献汇报。

视频质量检测：

Video Quality Assessment: A Comprehensive Survey(2024,综述)

自然语言文本质量检测：

LLM-based NLG Evaluation: Current Status and Challenges(ACL 2025,综述)

大预言模型评判：

LLMJ: A Survey on LLM-as-a-Judge (2025,IDEA 研究院、中科院计算所等)

视频汇报质量检测：

HMMs for PQA: Multimodal Assessment of Oral Presentations using HMMs(ICMI 2020)
MPSSA: Multimodal Public Speaking Performance Assessment (ICMI 2025)

2.3 进阶文献（前沿方法）

学生可在此部分选择进阶文献进行专题汇报，或自行查找最新的同类重要文献。在此，我们将正式接触PPT汇报质量评估的前沿方法、视频质量评估的前沿方法。

PPT汇报质量评估：

MLP数据集， PolyViT : Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides(2022 CMU)
PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion(2024 ACL)
PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides(EMNLP 2025)
AutoPresent: Designing Structured Visuals from Scratch(CVPR 2025)
LecEval: An Automated Metric for Multimodal Knowledge Acquisition in Multimedia Learning
SlideAudit : A Dataset and Taxonomy for Automated Evaluation of Presentation Slides

视频质量评估：

Zoom-VQA : Patches, Frames and Clips Integration for Video Quality Assessment (CVPR 2023)
Fast-VQA : Efficient End-to-end Video Quality Assessment with Fragment Sampling (ECCV 2022)
NR-VQA : Neighbourhood Representative Sampling for Efficient End-to-end Video Quality Assessment (TPAMI 2023)
Q-Align : Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels

Web界面/UI多模态评估（相关领域）：

WebQuality : A Large-scale Multi-modal Web Page Quality Assessment Dataset with Multiple Scoring Dimensions
UIClip : A Data-driven Model for Assessing User Interface Design

三、结语与期望

“新芽计划”的初衷是点燃新芽学子对未知探索的热情，并为大家提供一片成长的沃土。希望通过这个专题，新芽学子不仅能学到前沿的 AI 知识，更能培养出独立思考、动手实践和解决复杂问题的能力。

我们热切期待，在最终的汇报中，能看到大家闪耀着智慧火花的解读与创见！