王晓鹏_品友大数据分析平台演进

注脚

展开查看详情

1. E T B .N P U IT

2. E T .N 品友大数据分析平台的架构和演化 B P U IT 王晓鹏

3. 议程 • 大数据分析的步骤 E T N • . 品友大数据分析平台的架构 B • 投放分析平台的演进 • U 数据管理分析平台的演进 P IT • 工具的探索与实践 • 总结

4. 大数据分析步骤 数据可视化 • • 多维度切分聚合 热力图 E T N • 散点图. . 数据分析 B • 数据报告 • 数据预警 U • 数据洞察 数据建模 P • 模型训练 • 模型管理 处方性 •行动建议 IT • 模型优化. 分析 数据清理 • 清洗,去噪,去重 预测性 • 预测模型 • 数据规整 分析 • 行动建议 • 反欺诈数据 • 趋势分析 诊断性分析 • 关联分析 数据收集 • 事件收集(曝光,点击,转化,访客) • 业务报表 • • JDBC,API(CRM,ERP,Social) SFTP,Upload(历史数据,第三方数据,离线数据) 描述性分析 • 多维度 • 聚合切片

5. 品友应用大数据分析的产品 T 目的不同 1 2 .N E使用场景不同 U B 数据不同 P 投放分析平台 企业数据管理平台 IT 品友的广告投放平台 DMP,SaaS,In-House,Hybrid 用户为广告投放运营 用户为企业市场,IT,数据分析 面向用户不同

6. 品友投放数据及其分析需求 T 基础一方数据 广告行为数据:250T/年 分析数据:600G/日 E (用户资料,用户标签): 考虑20%的业务增长率后为: 15G/日*365+40G *12月 = 5T/年 N 300T/年 考虑20%的业务增长率后为: . 考虑20%的业务增长率后为: 6T/年 272T/年 数据存储的建议 U B 关键性指标  鉴于用户换机周期为1.5年,我们建 议广告行为数据存储1.5年;  一方标签数据、分析数据、报表数 据永久存储 IT P  多维分析查询速度:不高于10秒 (不含用户访问查询页面的时间);  人群预估响应时间:秒级;  人群生成响应时间:与人群规模有 关;  建议分配存储:XX(与研发确认)  并发查询数目:1000请求/秒;

7.第一代大数据平台(2013-2014) E T B .N P U IT

8.第二代大数据平台(2015-2016) E T B .N P U IT

9.第三代大数据平台(2016- 现在) E T B .N P U IT

10. DMP的数据及分析需求 T 数据来源 用户角色及需求 E •曝光 投放数据 N •点击 . •转化 •数据资产 •访客 IT •数据质量 B •微信 社交活动 U •微博 P •报表洞察 业务运营 •趋势分析 IT •CRM 商业 •ERP •灵活的数据操作 •WIFI 数据科学家 •数据建模 其它 •IoT •离线数据 •预测分析

11.没有银弹(No Silver Bullet) T 投放数据 第一方数据 E 来自广告投放及网站访问事件 属于客户第一方的多种数据 数据量十分巨大 B .N 数据量相对小 U 80% 80% P 数据种类少,格式单一,稳定 数据种类多,格式多,质量不稳定 58% 58% IT 需要更新及时 数据更新分批分阶段 76% 76% 报析结果需要聚合结果 需要灵活,精确查询 80% 80% 基本是需要报表结果 有更深入的预测分析需求 58% 58%

12.DMP数据分析的全面开花 T •功能可以 •投放数据 E •性能不够实时 •聚合,实时,灵 •权限,学习曲线 活 Hive/Presto B .N Druid/Kylin P U IT Zepplin Pilosa •交互式数据分析 •Bitmap •可视化SQL查询 •人群画像 •一方标签

13. DRUID • 高性能的,分布式列存储的MOLAP框架 • 特点 E T – 亚秒级查询 – 实时数据注入 B .N – 可扩展的PB级存储 P U IT – 支持多种数据源:hadoop,spark,kafka,storm和samza等 • 缺点 – 只有聚合结果,没有明细

14. Druid在品友的实践 • 使用场景:广告实时统计分析 E T N • 数据:投放数据,20亿/天 事 B . U 曝光/点击/访客 DRUID 数 件 Kafka P 据 收 IT 集 呈 现 ETL HDFS

15.Zepplin,数据分析师的心头好 • Apache Zepplin是可视化框架 E T N • 应用于交互式数据分析,七牛云, . • 支持多种语言,默认是scala(背后是Spark shell), B SparkSQL, Markdown 和 Shel U • 功能 P • 数据可视化 IT • 用SQL来进行可视化查询

16.Zepplin在品友的实践 E T B .N P U IT

17. Pilosa在品友的实践 • Bitmap对海量用户进行 标签 E T .N • 0/1来代表有某标签 B • 人群画像速度提升 U • 人群查询方便 • 易于扩展 IT P

18.Palo vs ClickHouse E T B .N P U IT

19. 选择。。。选择。。。 • ClickHouse vs Palo E T N • Druid vs Kylin B . • GreenPalm vs Elastic Search P U IT

20. 自己动手,丰衣足食 • 数据Console E T • 机器学习平台 B .N • U 加速数据分析 Alluxio P IT • Knime

21. 品友数据分析平台总结 T • 根据数据量,使用者角色设计设计 E 分析平台很重要 B .N • 对工具的选择来说,没有银弹 P U • 走工具+自我开发的道路 IT

22. E T B .N P U IT