- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- <iframe src="https://www.slidestalk.com/AICUG/behavior_recognition_in_video?embed" frame border="0" width="640" height="360" scrolling="no" allowfullscreen="true">复制
- 微信扫一扫分享
视频行为识别算法及其应用
视频行为识别算法及其应用
展开查看详情
1 . 区 术 cn 社 技 g. 能 cu 智 ai 视频动作识别算法 工 w. 姜波 博士 人 ww 计算机视觉部门负责人 网易人工智能 UG IC Copyright © 2019 by NetEase Artificial Intelligence Business Unit
2 . 区 目录 术 cn 社 技 g. 能 cu 智 ai 1 2 工 w. 视频AI技术 视频动作识别 人 ww UG IC 2 Copyright © 2019 by NetEase Artificial Intelligence Business Unit
3 . 区 1.1 视频AI技术的价值 术 cn 社 技 g. ◼ 随着技术(视频、AI等)、网络(带宽、资费等)、设备(移动等)的持续发展,世界正进入“全民参与的视频时 代”。基于视频业务的下述特性,视频AI需求日趋增多。 能 cu 内容丰富 数据量大 时效性强 智 ai 视频种类场景日趋丰富 编辑成本低、流量作用凸显 内容形态、热点迅速变化 工 w. 视频内容日趋多样 “全民参与”的视频时代 对视频“新鲜度”要求升高 人 ww 网易系产品的增量级视频业务 视频去重 精彩瞬间拆条 带货视频分析 人脸封面分析 视频内容审核 UG 视频质量筛选 智能封面 商品信息比对 智能识别配乐 人脸检测识别 视频版权审核 IC Copyright © 2019 by NetEase Artificial Intelligence Business Unit
4 . 区 1.2 视频AI技术的应用范围 术 cn 社 技 g. 生命周期 视频生产 视频管理 视频分发 视频互动 能 cu 智 ai • 智能创作 • 媒资管理 • 视频推荐 • 情景广告 场景应用 • 智能剪辑 • 视频审查 • 视频搜索 • 智能播放 工 w. • 人脸关键点 • 标签分类 • 关键帧检测 基础技术 人 ww • 特效滤镜 • 人像分割 • 文本识别 • 明星识别 • 视频拆条 • 视频摘要 • 情感识别 • 语音语言 • 姿态估计 • 物体识别 • 手势识别 • 场景识别 • 视频指纹 • 视频超分辨 • 视频风格化 • 动作识别 • 质量评价 UG • 视频描述 IC Copyright © 2019 by NetEase Artificial Intelligence Business Unit
5 . 区 1.3 目标与挑战 术 cn 社 技 g. 要素 目标维度 挑战 能 cu 海量音视频数据 标题 视频形态多样化 智 ai 镜头 工 w. GPU+CPU算力 多模态算法融合 运动 机器学习算法 人 ww 视频内容理解 图像 跨越语义鸿沟 音频 结果抽样与标注 画面文字 海量标注数据获取 UG 抠图效果展示 IC Copyright © 2019 by NetEase Artificial Intelligence Business Unit
6 . 区 目录 术 cn 社 技 g. 能 cu 智 ai 1 2 工 w. 视频AI技术 视频动作识别 人 ww UG IC Copyright © 2019 by NetEase Artificial Intelligence Business Unit
7 . 区 2.1 什么是视频(动作)分类? 术 cn 社 技 g. ◼ 任务目的:给一个视频片段进行分类,类别通常是各类人的动作,也有视频的内容。 ◼ 基本流程: 能 cu 视频 解码 抽帧 特征提取 融合 类别 智 ai 工 w. ◼ 模型举例: 人 ww UG IC Copyright © 2019 by NetEase Artificial Intelligence Business Unit
8 . 区 2.1 一个典型的视频分类系统 术 cn 社 技 g. 数据流处理 能 cu 智 ai 视频 解码+抽帧 去重 去黑帧 颜色空间转换 裁剪 缩放 归一化 工 w. 人 ww 预测模型 UG 模型预测 多帧输出 结果融合 后处理逻辑 IC • A Real-time multi-label classification system for short videos ICIP2019 Copyright © 2019 by NetEase Artificial Intelligence Business Unit
9 . 区 2.2 解码?不解码? 术 cn 社 技 g. ◼ DMC-Net 能 cu 智 ai 工 w. 人 ww UG IC • DMC-Net Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition CVPR2019 Copyright © 2019 by NetEase Artificial Intelligence Business Unit
10 . 区 2.3 抽帧——合理的方法? 术 cn 社 技 g. 能 cu 智 ai 工 w. 人 ww UG IC Copyright © 2019 by NetEase Artificial Intelligence Business Unit
11 . 区 2.3 抽帧——Early-selection 术 cn 社 技 g. ◼ AdaFrame: 能 cu 智 ai 工 w. 人 ww UG IC • AdaFrame Adaptive Frame Selection for Fast Video Recognition 2018 Nov Copyright © 2019 by NetEase Artificial Intelligence Business Unit
12 . 区 2.3 抽帧——Early-selection 术 cn 社 技 g. ◼ PickNet: 能 cu 智 ai 工 w. 人 ww UG IC • Less is More ECCV2018 Copyright © 2019 by NetEase Artificial Intelligence Business Unit
13 . 区 2.3 抽帧——Late-selection 术 cn 社 技 g. ◼ Temporal Relational Reasoning (TRN): 能 cu 智 ai 工 w. 人 ww UG IC • Temporal Relational Reasoning in Videos ECCV 2018 Copyright © 2019 by NetEase Artificial Intelligence Business Unit
14 . 区 2.3 抽帧——蒸馏 术 cn 社 技 g. 能 cu 智 ai 工 w. 人 ww UG IC • Efficient Video Classification Using Fewer Frames CVPR2019 Copyright © 2019 by NetEase Artificial Intelligence Business Unit
15 . 区 2.4 特征建模——传统方法 术 cn 社 技 g. ◼ 传统方法:iDT 能 cu 智 ai 工 w. 人 ww UG IC • Action Recognition with Improved Trajectories ICCV2013 Copyright © 2019 by NetEase Artificial Intelligence Business Unit
16 . 区 2.4 特征建模——双流法 术 cn 社 技 g. ◼ Two-Stream 开宗立派 能 cu 智 ai 工 w. 人 ww UG IC • Two-stream convolutional networks for action recognition in videos (2014) Copyright © 2019 by NetEase Artificial Intelligence Business Unit
17 . 区 2.4 特征建模——双流法 术 cn 社 技 g. ◼ Temporal Segment Networks (TSN) 能 cu 智 ai 工 w. 人 ww UG IC • Two-stream convolutional networks for action recognition in videos (2014) Copyright © 2019 by NetEase Artificial Intelligence Business Unit
18 . 区 2.4 特征建模——双流法 术 cn 社 技 g. ◼ Two-Stream Inflated 3D ConvNets (I3D) 能 cu 智 ai 工 w. 人 ww UG IC • Quo Vadis, Action Recognition? Copyright A New © Model and the Kinetics Dataset (May 2017) 2019 by NetEase Artificial Intelligence Business Unit
19 . 区 2.4 特征建模——双流法 术 cn 社 技 g. ◼ StrNet 能 cu 智 ai 工 w. 人 ww UG IC • 《strNet: Local and global spatial-temporal modeling for action recogniton》201812 Copyright © 2019 by NetEase Artificial Intelligence Business Unit
20 . 区 2.4 特征建模——双流法 术 cn 社 技 g. ◼ 模拟光流的方法(MotionNet) ◼ Hidden Two-Stream 能 cu ◼ Optical Flow guided Feature (OFF) ◼ ARTNet 智 ai ◼ TVNet ◼ MARS 工 w. ◼ Flow Layers 人 ww UG • Appearance-and-Relation Networks for Video Classification Nov 2017 • Hidden Two-Stream Convolutional Networks for Action Recognition real-time approach Oct. 2017 • Optical Flow Guided Feature A Fast and Robust Motion Representation for Video Action Recognition Nov.2017 CVPR2018 IC • End-to-End Learning of Motion Representation for Video Understanding Apr. 2018 cvpr2018 • MARS Motion-Augmented RGB Stream for Action Recognition CVPR2019 Copyright © 2019 by NetEase Artificial Intelligence Business Unit • Representation Flow for Action Recognition CVPR2019
21 . 区 2.4 特征建模——卷积网络 术 cn 社 技 g. ◼ 诸侯并起,百家争鸣 能 cu 智 ai 工 w. 人 ww UG IC Copyright © 2019 by NetEase Artificial Intelligence Business Unit
22 . 区 2.4 特征建模——卷积网络 术 cn 社 ◼ C3D 技 g. 能 cu 智 ai 工 w. 人 ww UG IC • Learning Spatiotemporal Features with 3D Convolutional Networks 2015 Copyright © 2019 by NetEase Artificial Intelligence Business Unit
23 . 区 2.4 特征建模——卷积网络 术 cn 社 技 g. ◼ P3D (Pseudo-3D) 能 cu 智 ai 工 w. 人 ww UG IC • Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks Nov.2017 Copyright © 2019 by NetEase Artificial Intelligence Business Unit
24 . 区 2.4 特征建模——卷积网络 术 cn 社 技 g. ◼ R(2+1)D 能 cu 智 ai 工 w. 人 ww UG IC • A Closer Look at Spatiotemporal Convolutions for Action Recognition CVPR2018 Copyright © 2019 by NetEase Artificial Intelligence Business Unit
25 . 区 2.4 特征建模——卷积网络 术 cn 社 技 g. ◼ CoST 能 cu 智 ai 工 w. 人 ww UG IC • Collaborative Spatiotemporal Feature Learning for Video Action Recognition CVPR2019 Copyright © 2019 by NetEase Artificial Intelligence Business Unit
26 . 区 2.4 特征建模——卷积网络 术 cn 社 技 g. ◼ ResNet3D 能 cu 智 ai 工 w. 人 ww UG IC • Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet? CVPR2018 Copyright © 2019 by NetEase Artificial Intelligence Business Unit
27 . 区 2.4 特征建模——卷积网络 术 cn 社 技 g. ◼ ECO 能 cu 智 ai 工 w. 人 ww UG IC • ECO: Efficient Convolutional Network for Online Video Understanding ECCV2018 Copyright © 2019 by NetEase Artificial Intelligence Business Unit
28 . 区 2.4 特征建模——卷积网络 术 cn 社 ◼ S3D 技 g. 能 cu 智 ai 工 w. 人 ww UG IC • Rethinking Spatiotemporal Feature Learning ECCV2018 Copyright © 2019 by NetEase Artificial Intelligence Business Unit
29 . 区 2.4 特征建模——卷积网络 术 cn 社 技 g. ◼ MiCT 能 cu 智 ai 工 w. 人 ww UG IC • MiCT Mixed 3D2D Convolutional Tube for Human Action Recognition CVPR2018 Copyright © 2019 by NetEase Artificial Intelligence Business Unit