产品咨询:19113907060
联系我们
产品咨询
资讯内容banner 咨询banner-移动

常用视频行为识别数据集,典型应用场景和数据特性

作者:万物纵横
发布时间:2025-08-01 10:37
阅读量:

以下是视频行为识别领域最常用的公开数据集,按应用场景和特点分类介绍,涵盖通用、细粒度、交互、低分辨率等多个维度,并附典型应用场景和数据特性:


常用视频行为识别数据集,典型应用场景和数据特性(图1)


一、通用日常动作数据集


1. UCF101


规模:101 类动作,13,320 个视频片段


特点:


包含体育(如篮球扣篮)、日常活动(如刷牙)、物体交互(如使用锤子)等 5 大类动作


数据多样性高:不同光照、视角、背景下的动作录制,适合基础模型训练


标注方式:视频级分类标签,无时空定位信息


应用:学术研究基准,常用于验证 2D/3D CNN 模型性能


2. HMDB51


规模:51 类动作,6,766 个视频片段


特点:


动作分为面部动作(如笑、咀嚼)、复杂肢体动作(如拔剑、拥抱)等 5 个子类,数据来源包括电影、YouTube 和其他公开数据集,场景复杂度高与 UCF101 形成互补,常用于对比实验。


应用:验证模型对细微动作(如手部操作)的识别能力


3. Kinetics 系列


版本:


Kinetics-400(2017):400 类,30.6 万视频


Kinetics-600(2018):600 类,49.5 万视频


Kinetics-700(2019):700 类,65 万视频


特点:


覆盖人 - 物交互(如弹钢琴)、人 - 人交互(如握手)、运动(如滑雪)三大类,每个视频约 10 秒,标注单一动作标签,适合预训练大模型,被广泛用于 ActivityNet 等国际竞赛。


应用:训练 Transformer 或 3D CNN 的首选预训练数据,迁移学习效果显著。


二、复杂交互与时空定位数据集


1. AVA


规模:80 类动作,57,600 个视频片段,标注 21 万个时空实例。


特点:


基于电影片段,包含多人交互场景(如打斗、交谈)


标注精细:每个动作标注时间区间(如 15:20-15:30)和人物位置框支持多标签分类,适合复杂场景下的行为定位。


应用:训练同时处理时空信息的模型(如 SlowFast),安防监控中的群体行为分析。


2. Something-Something V2


规模:174 类动作,220,847 个视频片段


特点:


聚焦物体交互动作(如 “将某物放入某物”“倒置某物”)标注包含动作模板(如 “Putting (something) onto (something)”)和具体物体,数据分布均匀,适合细粒度动作分类。


应用:智能家居中的物体操作识别,如判断用户是否 “将杯子放在桌子上”


3. HACS


规模:200 类动作,52 万视频片段,包含 14 万完整动作分段。


特点:


结合 CLIPS(2 秒短视频)和 SEGMENTS(完整动作序列)两种标注形式,覆盖从简单动作(如挥手)到复杂活动(如组装家具)的多层次行为,支持时序动作分割和定位任务。


应用:工业场景中的流程合规性检测(如装配步骤顺序判断)


三、细粒度与特殊场景数据集


1. Jester


规模:27 类手势,148,092 个视频片段


特点:


专注于手部交互动作(如两指滑动、敲击屏幕),包含 “无手势” 类别,增强模型的区分能力,视频为固定视角(笔记本摄像头),适合边缘设备部署。


应用:智能终端的手势控制(如车载系统的非接触式操作)


2. EPIC-KITCHENS


规模:352,888 个动作实例,标注 200 类厨房活动


特点:


第一人称视角录制,包含物体交互(如切菜、开冰箱),标注层级细化:动作标签 + 涉及物体 + 交互关系(如 “用刀切洋葱”)提供视频 - 文本对齐的描述数据。


应用:辅助机器人学习日常操作,或分析老年人生活自理能力


3. TinyVIRAT


规模:26 类行为,26,355 个低分辨率视频(10x10~128x128 像素)


特点:


直接截取监控摄像头画面,无人工降质处理,包含人体动作(如跌倒)和交通工具行为(如车辆逆行),类别分布极不均衡,长尾问题显著。


应用:安防场景中远距离目标识别(如判断行人是否违规穿越)


四、历史经典与补充数据集


1. Weizmann


规模:10 类动作,90 个视频片段


特点:


早期数据集,包含经典动作(如弯腰、跳跃),提供前景轮廓视频,适合研究动作形态特征。


应用:对比传统光流法与深度学习模型的性能差异


2. KTH


规模:6 类动作,599 个视频片段


特点:


包含户外场景(如跑步、挥手),不同光照和背景条件,常用于验证模型的鲁棒性。


应用:研究跨环境行为识别的基础数据集


五、数据集选择建议


学术研究:


基础模型训练:优先 Kinetics-700 预训练,再用 UCF101/HMDB51 微调


复杂场景研究:选择 AVA(时空定位)或 HACS(多层次行为)


细粒度任务:Jester(手势)或 Something-Something V2(物体交互)


工业落地:


实时性要求高:使用 Jester(轻量级模型)或 TinyVIRAT(低分辨率优化)


流程合规检测:HACS 的 SEGMENTS 标注可直接用于时序动作分割


定制化场景:用自有数据结合 Kinetics 预训练模型进行迁移学习


硬件适配:


边缘设备:Jester(固定视角)或 EPIC-KITCHENS(第一人称)


云端部署:Kinetics-700 或 AVA 支持高算力模型的复杂推理


六、数据获取与处理


下载渠道:


通用数据集:通过论文官网或 Google Drive 获取(如 Kinetics 在 DeepMind 官网)


细分领域数据集:通过学术平台(如 arXiv)或竞赛官网(如 ActivityNet)


预处理工具:


视频抽帧:FFmpeg


光流计算:OpenCV 或 PWC-Net


数据增强:使用 albumentations 库模拟遮挡、模糊等真实场景干扰


这些数据集为行为识别提供了从基础到复杂的全场景覆盖,实际应用中可结合多源数据(如自有标注 + 公开数据)构建混合训练集,同时注意数据偏斜(如 TinyVIRAT 的长尾问题)和标注粒度(如 AVA 的时空定位需求)对模型的影响。

- END -
分享:
留言 留言 留言咨询
电话咨询 电话咨询 电话联系
19113907060
微信在线客服 微信在线客服 在线客服
返回官网顶部 返回官网顶部 回到顶部
关闭窗口
产品订购
  • *

  • *

  • *

  • *

  • *