PingCAP-Infra-Meetup-101-luoruixing-易果数据体系演进之路

本次分享罗瑞星老师为大家介绍了易果集团大数据体系的发展历程,主要包括: 1.数据工具的演进,调度工具,数据交换工具等; 2.数据架构的演进,包括离线架构,实时架构等。 3.最后详细介绍了 TiDB 在易果集团的使用,以及未来规划。
展开查看详情

1.易易果数据体系演进之路路 .罗瑞星 2019 / 5 / 11

2.⾃自我介绍 罗瑞星 ⼤大数据⾼高级⼯工程师@51Job 数据架构专家@易易果集团 负责易易果集团⼤大数据体系建设,架构设计,优化;数据仓库、⼯工具及产品的落地

3.⽬目录 CONTENTS 1 • 背景介绍. 2 • 数据体系的建设 3 • 未来规划

4.易易果集团介绍 易易果⽣生鲜电商易易果创⽴立于2005年年, 易易果集团由易易果⽣生鲜成⽴立,未来将 着⼒力力打造三个业务板块:全渠道运营、安鲜达物流和采购供应链,2017 年年与天猫⽣生鲜全⾯面融合,GMV达到100亿。 SKU数超过4000,线上最⼤大 冷链仓全国布局最⼴广,15地24仓 ⾏行行业最⼤大的⽣生鲜电商运营平台 ⼋八⼤大品类涵盖,线上最全 产能全国最⼤大,180万件/天 订单量量近20万单/天 采购覆盖全球6⼤大洲 冷链物流全国规模最⼤大,覆盖全国近400 GMV100亿/年年 39个国家地区147个产地 个城市

5.易易果数据体系的建设 接⼿手前的数据计算架构及团队 2台离线SqlServer + 1台离线SqlSever + 1台报表SqlServer 2平台 + 2ETL + 1⼯工具开发 + 2产品开发 懂Hadoop的很少,Java系

6.易易果数据体系的建设 Java系为主,快速构建平台及调度⼯工具,完成离线SqlServer向Hadoop的转型 抽数⼯工具:DataX 调度⼯工具:Azkaban 存储计算:Hadoop + Hive Adhoc:Presto

7.易易果数据体系的建设 2017所做的⼯工作: 1. 所有离线SqlServer任务迁移⾄至Hadoop 2. DataX集成拉链模板 3. 增加Presto权限控制(User – DB , Role - DB) 4. Azkaban添加可视化任务配置和任务抽取⻚页⾯面 5. Presto on Yarn

8.易易果数据体系的建设

9.易易果数据体系的建设 2018-2019: 1. 精细化项⽬目管理理 2. 实时数仓 3. 架构升级

10.易易果数据体系的建设

11.易易果数据体系的建设 数据的⽣生命周期管理理 --- 统⼀一⼯工具平台 --- 元数据管理理 --- 数据质量量平台 --- OneData

12.易易果数据体系的建设 每个⼈人都有⾃自⼰己的标准 中间表的四种命名⽅方式: bdl. erp_rel_commoditydeliveryarea_temp 元数据统计完全不不可信 bdl. erp_rel_commoditydeliveryarea_tmp temp.bdl_erp_rel_commoditydeliveryarea bdl.interim_erp_rel_commoditydeliveryarea

13.易易果数据体系的建设 – 命名规范 统计数据仓库的命名⽅方式 中间表的命名⽅方式: temp.bdl_erp_rel_commoditydeliveryarea sdl(ods)的命名⽅方式 系统名_原表名 bdl,idl,tdl(dwd,dws,ads)以及维度表的命名⽅方式 OneData

14.易易果数据体系的建设 - OneData

15.易易果数据体系的建设 – 备份恢复 数据的备份和恢复 为什什么要做? 拉链表 备份恢复⽅方式: 1.hdfs快照+distcopy 优点:快速备份,占⽤用空间中等 缺点:恢复速度中等 2.物理理快照+mv/cp 优点:恢复速度快 缺点:备份速度中等,占⽤用空间⼤大 采⽤用⽅方式:全库hdfs快照+核⼼心表物理理快照(保留留15天)

16.易易果数据体系的建设 – 规范 统⼀一⼯工具开发 + git/svn + ⼀一⻚页纸规范 利利⽤用统⼀一开发⼯工具建⽴立表 – 创建⼈人 – 责任⼈人 – 任务的对应机制 利利⽤用git/svn做ETL脚本的管理理版本 ⼀一⻚页纸规范,简单⽅方便便 开发⼈人,时间,分组,责任⼈人,注释,输出表等

17.易易果数据体系的建设 – 统⼀一数据平台

18.易易果数据体系的建设 – 元数据管理理 参考Google的Goods论⽂文以及linkedin的WhereHows

19.易易果数据体系的建设 – 数据质量量 同步 + 异步

20.易易果数据体系的建设 1.精细化项⽬目管理理 2. 实时数仓 3. 架构升级

21.易易果数据体系的建设 – 选择TiDB的理理由 TiSpark 简单易易⽤用 未来统⼀一的分析引擎 兼容MySQL协议,⽅方便便开发与 脚本迁移. 管理理和监控 ⼯工具⽅方便便易易⽤用 脚本化的部署,扩容; Syncer,loader,dm … Prometheus上详细的监控; 完善的权限管理理

22.易易果数据体系的建设 – TiDB实时数仓架构

23.易易果数据体系的建设 – 架构融合 • 1 测试TiFlash • 2、RPC + RestFul接⼝口层的保护和降级 • 3、抽数⼯工具统⼀一升级为Flink • 4、离线实时体系对接

24.易易果数据体系的建设 1.精细化项⽬目管理理 2. 实时数仓 3. 架构升级

25.易易果数据体系的建设 – 架构回顾

26.易易果数据体系的建设 – 融合的⼤大数据架构 DataX ! FlinkX Syncer ! FlinkXING 由单机转为ON YARN 统⼀一管理理

27.易易果数据体系的建设 – 说明 数据仓库说明: 1. Kafka:事务事实表 2.TiDB :快照事实表 3.HDFS :累积快照事实表 TiDB+TiFlash的好处: 1. 实时数据查询; ⾮非常适合中台概念 2. TiSpark统⼀一引擎; 3. TiFlash的复⽤用; 4. 备库。

28.未来规划 TiDB逐步成为核⼼心 实时处理理统⼀一为Flink 存储多样化,⼯工具统⼀一化 数据管理理加⼊入图数据库,调研SQL on ML

29.欢迎交流 Thank you!

TiDB 是一款定位于在线事务处理/在线分析处理( HTAP: Hybrid Transactional/Analytical Processing)的融合型数据库产品,实现了一键水平伸缩,强一致性的多副本数据安全,分布式事务,实时 OLAP 等重要特性。