音视频AI技术落地实践

下载 4

云+社区

发布于

6565

人观看

#信息技术

腾讯智眸基于腾讯领先的音视频 AI 技术，为广电新媒体、短视频、泛娱乐及在线视频场景提供了一整套的视频解决方案，主要包括极速高清、视频智能识别和分析、视频在线编辑等产品，视频智能识别和分析又是其中将AI技术结合得最为紧密的解决方案，广泛应用于视频审核、视频检索、视频分析等场景中。本次分享也主要围绕AI技术在视频智能识别和分析的应用，以及实际落地过程中遇到的挑战以及解决办法。

展开查看详情

1 .云+社区技术沙龙

2 .音视频AI技术落地实践 definesun(孙祥学) CSIG云与智慧产业事业群/视频云/高级工程师

3 .SPEAKER 2016.6 2016.7 ~ 2017.12 2018.1~至今毕业 PSTN云通讯平台视频智能识别和分析毕业于华中科技大学负责PSTN云通讯平台相关功能的开目前主要负责视频智能识别和分析计算机软件与理论专业发，包括企业总机、语音呼叫中心、相关产品的研发，在视频检索、视回拨、中间号、计费平台等频审核、视频分析等相关应用场景中有一定的实践经验

4 .CONTENTS 01 视频 + AI = ? 02 智眸-视频智能识别和分析 03 应用场景 04 官网资源

5 .01 视频+AI = 极速高清(智能动态编码)

6 .01 视频+AI = 云剪(在线视频编辑) https://yunjian.qq.com

7 .01 视频+AI=智眸(智能识别分析) https://aivideo.cloud.tencent.com

8 .01 视频+AI=智眸(智能识别分析) https://aivideo.cloud.tencent.com

9 .01 视频+AI=智眸(智能识别分析) https://aivideo.cloud.tencent.com

10 . ① 智眸平台和产品矩阵 02 智眸 ② 识别系统架构和多媒体处理框架视频智能识别分析 ③ 引擎基础上的场景优化 ④ 智能编辑原理简介 4

11 .① 智能媒体生产平台基础产品层直播点播短视频实时音视频小视频互动直播涉政涉黄人脸识别声音识别智能拆条智能集锦智能分类智能标签基础应用层涉恐涉暴文字识别物体识别智能封面智能水印智能摘要智能推荐多媒体协议支持视频预处理视频解码视频截图视频去重视频筛选媒体处理层视频筛选音频提取语音VAD检测音频特征提取音频向量生成 AI引擎层人脸识别引擎声音识别引擎文字识别引擎物体识别引擎视频指纹引擎集锦封面引擎基础服务层深度学习平台深度学习训练样本集检索分析管理平台

12 .① 智眸三大产品线：满足全行业视频AI需求

13 .② 智能识别系统架构

14 .② 多媒体处理框架

15 .③ 人脸检索处理 1、三种使用场景（建库检索、历史扫描、无库检索） 2、两种搜索算法（Top-K query, Range query） 3、几点优化（ASR、OCR、Refer参考、自适应算法） 4、无缝升级

16 .③ 语音识别前置处理 1、全流式识别? —— 速度慢 2、固定间隔分割多线程识别 ? —— 语境切割导致准确率下降 3、离线VAD( voice activity detection)切割后多线程识别

17 .③ 截图预处理 1、过滤相似度较高的图片 2、截取指定区域进行识别

18 .④ 智能编辑-视频分类 & 视频标签 inceptionV3+PCA VGGish

19 .④ 视频编辑-视频集锦

20 .④ 视频编辑-新闻拆条还有人物拆条、片头片尾拆条、广告拆条….

21 .03 应用场景 1、媒资管理 2、视频搜索、推荐 3、直播流监控、广播监控 4、视频审核 5、跳过片头片尾 6、实时字幕 ….

22 .04 官网资源产品介绍页：https://cloud.tencent.com/solution/x-insight 接口文档：智能审核：https://cloud.tencent.com/document/product/266/33498 智能编辑：https://cloud.tencent.com/document/product/266/34691 智能识别：https://cloud.tencent.com/document/product/266/34692 公有云价格：https://cloud.tencent.com/document/product/266/33149

23 .关注云加社区公众号

24 .THANKS

0点赞

2收藏

4下载