- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
基于MaxCompute打造轻盈的人人车移动端数据平台
展开查看详情
1 .基于MaxCompute打造轻盈的人 人车移动端数据平台 吴水永 人人车大数据平台部负责人
2 .人人车数据平台 整体架构 数仓建设 BI 报表平台 1
3 . 1 大数据全家福 一家人就是要整整齐齐的
4 .3
5 . 2 数仓建模 站在巨人的肩上
6 .为什么需要数仓 • 以终为始 • 建设好的体系 • 顶层设计决定底层建筑 5
7 . 模型 原则 方案 × ER 高内聚与低耦合 × 自建数仓平台 × Data Vault 性能与成本 阿里MaxCompute × Anchor 效率与质量 × Inmon Kimball
8 .
9 .
10 .
11 . 数据同步 • MySQL => MaxCompute • MaxCompute => MySQL • MaxCompute => HDFS • 全量(clickhouse) • 增量(clickhouse)
12 .数仓最佳实践 • 数据产品非常重要,数据需求与产品需求同样重要 • 数据指标要克制,保持聚焦 • 业务表 No Delete,通过状态位标识 • 核心模型与扩展模型分离 • 做好命名与备注规范 • MaxCompute • 用好成本估计功能、智能监控系统 • 依赖内部节点,不要过度依赖业务流程 • 线上用管理员账号,而非个人账号 11
13 . 3 BI 报表平台 小白拖拽、所见即所得、移动端数据驱动
14 . 产品与技术相爱相杀 低延时:毫秒级别 ﹖ 我要在手机上看数 大数据:千万条以上 ﹖ 我不要 SQL 灵活性:支持 SQL、最好join 同步:增量、全量 ﹖ 我要拖拽、点点那种 幂等性 按主键去重 按partition去重
15 .眼花撩乱的引擎 • 关系型DBMS • NoSQL • KV • Sql On Hadoop • TSDB • Columnar DBMS • MPP • Lucene系列 14
16 .论POC以及TPC的重要性 磨刀不误砍柴工! 做业务基本要求的 原型验证 15
17 . 支持增量、全量同步 较高的并发 支持幂等性去重 支持SQL 支持亿级别量级查询 亚秒级延时 AK47 16
18 .怎么可以这么快 • 列式储存 • 异步merge • 向量引擎+SIMD • 高压缩比 • 不支持事务 17
19 .18
20 .19
21 .20
22 .• SQL 生成合表 • 血缘关系 • AD-HOC
23 .1 离线、实时 2 易用性 3 细腻的权限管控 支持离线、实时 三端Web、IOS、Android 表级?行级! 低时延、高并发 小白级拖拉拽 列级?字段值域级! 所见即所得 4 ETL 5 数据一致性 6 顶级可视化效果 关联表查询、合表生成 数据同步:增量、全量 折线图、饼图、指示卡、对 原生SQL支持 数据去重:主键、partition 比条形图等25种图表 22
24 .最佳实践 • 磨刀不误砍柴工,先做好POC,做好benchmark • 权限是魔鬼,平台一定要压制住 • 自研开源工具 • MaxCompute => clickhouse github.com/renrenche • Clickhouse • 启用副本集及分片 • Batch insert 适当大些 • 适当使用物化视图 • 设置合适的主键 • 其实也可以应用在实时数据方向 • 配置grafana完善监控 23
25 . 考核什么就会得到什么 掌上数据 万人线下 数据驱动 跟业绩直接挂钩 指标越少越好 24
26 .未来规划 从1到N 数据驱动 平台 业务 数据源自业务,反哺业务,驱动业务 25
27 .26
28 .about me • 吴水永 • 人人车大数据平台部负责人 • 开源项目 walle-web.io 作者(github 6k+ star、使用企业500+) • 微信公众号 walle-web 27