基于娱乐大数据的爱奇艺流量反作弊-彭涛-爱奇艺

介绍爱奇艺流量的整体架构,数据抽样,样本标注以及效果评估,算法流程,数据降维可视化分析。
展开查看详情

1.基于娱乐大数据的爱奇艺流量反作弊 爱奇艺技术产品中心

2.目录 业务介绍 整体框架 数据标注 算法模型 数据监控 效果评估

3.01 业务介绍

4.业务介绍 多部门合作 支持业务 目标 风控系统 爱奇艺视频 保证数据的准确性,为业界提供干净透 算法 纳逗 明的数据 文学 信息流

5.02 整体框架

6.整体框架 数据标注 分析系统 数据抽样 各模块整体效果分析 样本标注 标注 反馈 分剧集、专辑作弊规则命中分析 标注效果评估 数据清洗 效果评估 风控系统 技术指标 规则策略 过滤 反作弊 效果 商业价值评估 算法模型 数据监控 成果输出 异常剧集检测 清洗后数据 发现 成果 黑名单 高风险剧集 信用体系

7.03 数据标注 数据抽样 样本标注 标注效果评估

8.数据抽样 以用户ID为基础单元进行抽样,保证每个用户完整的行为轨迹 分层抽样 黑 白 灰 已经被判作弊的剧集 热门剧集和冷门剧集 监控数据中指标异常的 剧集

9.样本标注 基于统计的异常检测 LOF(局部异常因子) 12000 10949 • 衡量一个数据点的异常程度,并不是看它的绝对局部密 10776 度,而是看它跟周围邻近的数据点的相对密度 10000 8000 孤立森林 6000 5215 5217 • 检测分布稀疏且离密度高的群体较远的孤立点,善于发 4116 现一些新的作弊数据 4000 2471 2000 853 K-Means 161118 77 42 5 0 • 基于聚类的方法对不同的簇进行判断,善于发现团伙的刷量方 0 1 2 3 4 5 6 7 8 9 10 11 式,对批量集中数量行为效果显著 用户量

10.标注效果评估 黑、白、灰标注结果分析 黑样本标注为黑的 • 标注结果覆盖率 置信度 • 黑、白、灰样本标注的置信 度 白样本标注为白的 置信度 标注结果可视化分析 • 正常和作弊样本的特征有比 较明显的聚集特性 灰样本标注为黑的 置信度

11.04 算法模型 算法流程 模型融合 数据降维可视化分析

12.算法流程 算法迭代 优化 规则 策略 预处理和 算法 风控 原始日志 清洗流程 特征工程 模型 系统 人工抽样 干净数据 打标

13.模型融合 逻辑回归 GBDT 随机森林 表现性能好 实现简单 调参时间相对少 擅长处理不平衡数据 训练速度快 可灵活处理各种类型值 精确度比较高 取值划分较多的属性 容易欠拟合 会对随机森林产生更 难以并行训练数据 只是广义线性模型 大的影响 并行方案下: 并行方案下: 并行方案下: 准确率:98.6% 准确率:97.2% 准确率:99.2% 召回率:89.2% 召回率:96.6% 召回率:96.3%

14.数据降维可视化分析 高维空间 可展示低维空间 高度抽象 降维可视化 可解释性差 有助于认识数据分布 …… 降维可视化方法 A. t-SNE:基于流形假设(高维空间中相近的点 在低维空间中也相距较近)进行数据降维 图a 手写数字降维可视化示意

15.数据降维可视化分析 降维可视化在反作弊中的应用实践 A. 辅助分析:直观认识数据分 布,结合聚类发现异常团簇 或异常点,分析算法错分案 例(如FN、FP) B. 效果评估:评估数据标注的 效果、评估算法分类结果 图a PCA-List数据聚类可视化 图b PCW数据标注可视化

16.05 数据监控 异常剧集检测

17.异常剧集检测 用户点击行为 • App开启、页面的点击、搜索等行为轨迹 从宏观的角度发现异常剧集 用户播放行为 • 剧集播放的来源、播放VV、正片VV、播放时长、播放 完成等指标 作弊人群发现 • 根据已有作弊剧集,分析作弊用户观看的其它剧集

18.06 效果评估

19.效果评估 3 分成结算涉及模块复杂, 使用播放量预估分成 2 依赖监控数据的预估作弊 量 1 依赖样本标注数据 商业化评估 预估精确率、召回率 精确率、召回率 分成数据 不同剧集的分成权重不同,如片花和 线上数据 正片,传统指标无法体现区别,建立 由于抽样的偏差和刷量方的技术升 样本集 以营收为导向的反作弊评价体系 级,模型在样本集上表现良好,但在 模型效果评估需在样本集上表现保证精确 营收召回率=反作弊挽回损失(真实 生产环境可能表现不佳,线上环境使 率的条件下,不断提高召回率 作弊)/作弊带来的损失 用监控的高风险剧集进行评估,以评 营收准确率=反作弊挽回损失(真实 估模型效果是否下降 作弊)/反作弊节省金额

20.