以下是视频行为识别领域最常用的公开数据集,按应用场景和特点分类介绍,涵盖通用、细粒度、交互、低分辨率等多个维度,并附典型应用场景和数据特性:
一、通用日常动作数据集
1. UCF101
规模:101 类动作,13,320 个视频片段
特点:
包含体育(如篮球扣篮)、日常活动(如刷牙)、物体交互(如使用锤子)等 5 大类动作
数据多样性高:不同光照、视角、背景下的动作录制,适合基础模型训练
标注方式:视频级分类标签,无时空定位信息
应用:学术研究基准,常用于验证 2D/3D CNN 模型性能
2. HMDB51
规模:51 类动作,6,766 个视频片段
特点:
动作分为面部动作(如笑、咀嚼)、复杂肢体动作(如拔剑、拥抱)等 5 个子类,数据来源包括电影、YouTube 和其他公开数据集,场景复杂度高与 UCF101 形成互补,常用于对比实验。
应用:验证模型对细微动作(如手部操作)的识别能力
3. Kinetics 系列
版本:
Kinetics-400(2017):400 类,30.6 万视频
Kinetics-600(2018):600 类,49.5 万视频
Kinetics-700(2019):700 类,65 万视频
特点:
覆盖人 - 物交互(如弹钢琴)、人 - 人交互(如握手)、运动(如滑雪)三大类,每个视频约 10 秒,标注单一动作标签,适合预训练大模型,被广泛用于 ActivityNet 等国际竞赛。
应用:训练 Transformer 或 3D CNN 的首选预训练数据,迁移学习效果显著。
二、复杂交互与时空定位数据集
1. AVA
规模:80 类动作,57,600 个视频片段,标注 21 万个时空实例。
特点:
基于电影片段,包含多人交互场景(如打斗、交谈)
标注精细:每个动作标注时间区间(如 15:20-15:30)和人物位置框支持多标签分类,适合复杂场景下的行为定位。
应用:训练同时处理时空信息的模型(如 SlowFast),安防监控中的群体行为分析。
2. Something-Something V2
规模:174 类动作,220,847 个视频片段
特点:
聚焦物体交互动作(如 “将某物放入某物”“倒置某物”)标注包含动作模板(如 “Putting (something) onto (something)”)和具体物体,数据分布均匀,适合细粒度动作分类。
应用:智能家居中的物体操作识别,如判断用户是否 “将杯子放在桌子上”
3. HACS
规模:200 类动作,52 万视频片段,包含 14 万完整动作分段。
特点:
结合 CLIPS(2 秒短视频)和 SEGMENTS(完整动作序列)两种标注形式,覆盖从简单动作(如挥手)到复杂活动(如组装家具)的多层次行为,支持时序动作分割和定位任务。
应用:工业场景中的流程合规性检测(如装配步骤顺序判断)
三、细粒度与特殊场景数据集
1. Jester
规模:27 类手势,148,092 个视频片段
特点:
专注于手部交互动作(如两指滑动、敲击屏幕),包含 “无手势” 类别,增强模型的区分能力,视频为固定视角(笔记本摄像头),适合边缘设备部署。
应用:智能终端的手势控制(如车载系统的非接触式操作)
2. EPIC-KITCHENS
规模:352,888 个动作实例,标注 200 类厨房活动
特点:
第一人称视角录制,包含物体交互(如切菜、开冰箱),标注层级细化:动作标签 + 涉及物体 + 交互关系(如 “用刀切洋葱”)提供视频 - 文本对齐的描述数据。
应用:辅助机器人学习日常操作,或分析老年人生活自理能力
3. TinyVIRAT
规模:26 类行为,26,355 个低分辨率视频(10x10~128x128 像素)
特点:
直接截取监控摄像头画面,无人工降质处理,包含人体动作(如跌倒)和交通工具行为(如车辆逆行),类别分布极不均衡,长尾问题显著。
应用:安防场景中远距离目标识别(如判断行人是否违规穿越)
四、历史经典与补充数据集
1. Weizmann
规模:10 类动作,90 个视频片段
特点:
早期数据集,包含经典动作(如弯腰、跳跃),提供前景轮廓视频,适合研究动作形态特征。
应用:对比传统光流法与深度学习模型的性能差异
2. KTH
规模:6 类动作,599 个视频片段
特点:
包含户外场景(如跑步、挥手),不同光照和背景条件,常用于验证模型的鲁棒性。
应用:研究跨环境行为识别的基础数据集
五、数据集选择建议
学术研究:
基础模型训练:优先 Kinetics-700 预训练,再用 UCF101/HMDB51 微调
复杂场景研究:选择 AVA(时空定位)或 HACS(多层次行为)
细粒度任务:Jester(手势)或 Something-Something V2(物体交互)
工业落地:
实时性要求高:使用 Jester(轻量级模型)或 TinyVIRAT(低分辨率优化)
流程合规检测:HACS 的 SEGMENTS 标注可直接用于时序动作分割
定制化场景:用自有数据结合 Kinetics 预训练模型进行迁移学习
硬件适配:
边缘设备:Jester(固定视角)或 EPIC-KITCHENS(第一人称)
云端部署:Kinetics-700 或 AVA 支持高算力模型的复杂推理
六、数据获取与处理
下载渠道:
通用数据集:通过论文官网或 Google Drive 获取(如 Kinetics 在 DeepMind 官网)
细分领域数据集:通过学术平台(如 arXiv)或竞赛官网(如 ActivityNet)
预处理工具:
视频抽帧:FFmpeg
光流计算:OpenCV 或 PWC-Net
数据增强:使用 albumentations 库模拟遮挡、模糊等真实场景干扰
这些数据集为行为识别提供了从基础到复杂的全场景覆盖,实际应用中可结合多源数据(如自有标注 + 公开数据)构建混合训练集,同时注意数据偏斜(如 TinyVIRAT 的长尾问题)和标注粒度(如 AVA 的时空定位需求)对模型的影响。