基于MaxCompute打造轻盈的人人车移动端数据平台

分享嘉宾:吴水永 人人车大数据平台负责人 DevOps开源项目walle-web.io作者。2016加入人人车,从0到1搭建起ETL、BI 报表平台、实时计算平台、元数据管理、Ad-Hoc、数据工单化等大数据平台。
展开查看详情

1.基于MaxCompute打造轻盈的人 人车移动端数据平台 吴水永 人人车大数据平台部负责人

2.人人车数据平台 整体架构 数仓建设 BI 报表平台 1

3. 1 大数据全家福 一家人就是要整整齐齐的

4.3

5. 2 数仓建模 站在巨人的肩上

6.为什么需要数仓 • 以终为始 • 建设好的体系 • 顶层设计决定底层建筑 5

7. 模型 原则 方案 × ER  高内聚与低耦合 × 自建数仓平台 × Data Vault  性能与成本  阿里MaxCompute × Anchor  效率与质量 × Inmon  Kimball

8.

9.

10.

11. 数据同步 • MySQL => MaxCompute • MaxCompute => MySQL • MaxCompute => HDFS • 全量(clickhouse) • 增量(clickhouse)

12.数仓最佳实践 • 数据产品非常重要,数据需求与产品需求同样重要 • 数据指标要克制,保持聚焦 • 业务表 No Delete,通过状态位标识 • 核心模型与扩展模型分离 • 做好命名与备注规范 • MaxCompute • 用好成本估计功能、智能监控系统 • 依赖内部节点,不要过度依赖业务流程 • 线上用管理员账号,而非个人账号 11

13. 3 BI 报表平台 小白拖拽、所见即所得、移动端数据驱动

14. 产品与技术相爱相杀  低延时:毫秒级别 ﹖ 我要在手机上看数  大数据:千万条以上 ﹖ 我不要 SQL  灵活性:支持 SQL、最好join  同步:增量、全量 ﹖ 我要拖拽、点点那种  幂等性  按主键去重  按partition去重

15.眼花撩乱的引擎 • 关系型DBMS • NoSQL • KV • Sql On Hadoop • TSDB • Columnar DBMS • MPP • Lucene系列 14

16.论POC以及TPC的重要性 磨刀不误砍柴工! 做业务基本要求的 原型验证 15

17. 支持增量、全量同步 较高的并发 支持幂等性去重 支持SQL 支持亿级别量级查询 亚秒级延时 AK47 16

18.怎么可以这么快 • 列式储存 • 异步merge • 向量引擎+SIMD • 高压缩比 • 不支持事务 17

19.18

20.19

21.20

22.• SQL 生成合表 • 血缘关系 • AD-HOC

23.1 离线、实时 2 易用性 3 细腻的权限管控 支持离线、实时 三端Web、IOS、Android 表级?行级! 低时延、高并发 小白级拖拉拽 列级?字段值域级! 所见即所得 4 ETL 5 数据一致性 6 顶级可视化效果 关联表查询、合表生成 数据同步:增量、全量 折线图、饼图、指示卡、对 原生SQL支持 数据去重:主键、partition 比条形图等25种图表 22

24.最佳实践 • 磨刀不误砍柴工,先做好POC,做好benchmark • 权限是魔鬼,平台一定要压制住 • 自研开源工具 • MaxCompute => clickhouse github.com/renrenche • Clickhouse • 启用副本集及分片 • Batch insert 适当大些 • 适当使用物化视图 • 设置合适的主键 • 其实也可以应用在实时数据方向 • 配置grafana完善监控 23

25. 考核什么就会得到什么 掌上数据 万人线下 数据驱动 跟业绩直接挂钩 指标越少越好 24

26.未来规划 从1到N 数据驱动 平台 业务 数据源自业务,反哺业务,驱动业务 25

27.26

28.about me • 吴水永 • 人人车大数据平台部负责人 • 开源项目 walle-web.io 作者(github 6k+ star、使用企业500+) • 微信公众号 walle-web 27