音视频AI技术落地实践

展开查看详情

1.云+社区技术沙龙

2.音视频AI技术落地实践 definesun(孙祥学) CSIG云与智慧产业事业群/视频云/高级工程师

3.SPEAKER 2016.6 2016.7 ~ 2017.12 2018.1~至今 毕业 PSTN云通讯平台 视频智能识别和分析 毕业于华中科技大学 负责PSTN云通讯平台相关功能的开 目前主要负责视频智能识别和分析 计算机软件与理论专业 发,包括企业总机、语音呼叫中心、 相关产品的研发,在视频检索、视 回拨、中间号、计费平台等 频审核、视频分析等相关应用场景 中有一定的实践经验

4.CONTENTS 01 视频 + AI = ? 02 智眸-视频智能识别和分析 03 应用场景 04 官网资源

5.01 视频+AI = 极速高清(智能动态编码)

6.01 视频+AI = 云剪(在线视频编辑) https://yunjian.qq.com

7.01 视频+AI=智眸(智能识别分析) https://aivideo.cloud.tencent.com

8.01 视频+AI=智眸(智能识别分析) https://aivideo.cloud.tencent.com

9.01 视频+AI=智眸(智能识别分析) https://aivideo.cloud.tencent.com

10. ① 智眸平台和产品矩阵 02 智眸 ② 识别系统架构和多媒体处理框架 视频智能识别分析 ③ 引擎基础上的场景优化 ④ 智能编辑原理简介 4

11.① 智能媒体生产平台 基础产品层 直播 点播 短视频 实时音视频 小视频 互动直播 涉政涉黄 人脸识别 声音识别 智能拆条 智能集锦 智能分类 智能标签 基础应用层 涉恐涉暴 文字识别 物体识别 智能封面 智能水印 智能摘要 智能推荐 多媒体协议支持 视频预处理 视频解码 视频截图 视频去重 视频筛选 媒体处理层 视频筛选 音频提取 语音VAD检测 音频特征提取 音频向量生成 AI引擎层 人脸识别引擎 声音识别引擎 文字识别引擎 物体识别引擎 视频指纹引擎 集锦封面引擎 基础服务层 深度学习平台 深度学习训练样本集 检索分析管理平台

12.① 智眸三大产品线:满足全行业视频AI需求

13.② 智能识别系统架构

14.② 多媒体处理框架

15.③ 人脸检索处理 1、三种使用场景 (建库检索、历史扫描、无库检索) 2、两种搜索算法(Top-K query, Range query) 3、几点优化 (ASR、OCR、Refer参考、自适应算法) 4、无缝升级

16.③ 语音识别前置处理 1、全流式识别? —— 速度慢 2、固定间隔分割多线程识别 ? —— 语境切割导致准确率下降 3、离线VAD( voice activity detection)切割后多线程识别

17.③ 截图预处理 1、过滤相似度较高的图片 2、截取指定区域进行识别

18.④ 智能编辑-视频分类 & 视频标签 inceptionV3+PCA VGGish

19.④ 视频编辑-视频集锦

20.④ 视频编辑-新闻拆条 还有人物拆条、片头片尾拆条、广告拆条….

21.03 应用场景 1、媒资管理 2、视频搜索、推荐 3、直播流监控、广播监控 4、视频审核 5、跳过片头片尾 6、实时字幕 ….

22.04 官网资源 产品介绍页:https://cloud.tencent.com/solution/x-insight 接口文档: 智能审核:https://cloud.tencent.com/document/product/266/33498 智能编辑:https://cloud.tencent.com/document/product/266/34691 智能识别:https://cloud.tencent.com/document/product/266/34692 公有云价格:https://cloud.tencent.com/document/product/266/33149

23.关注云加社区公众号

24.THANKS