刘志祖 - 陌陌数据治理方面的思考与系统实践

陌陌数据仓库负责人刘志祖分享《陌陌数据治理方面的思考与系统实践》

展开查看详情

1. 陌陌数据治理方面的思考 与系统实践 演讲人:liu.zhizu@momo 2019 2019-07-19 中国数据智能管理峰会

2.2019 中国数据智能管理峰会

3.TEAM 团队介绍 1 数据生产 与保障 数据 业务诉求 业务技术 离不开数据 资产 日志源 2 数据使用 3 基础能力 数据应用方 赋能 开放 …… 陌陌-数据基础架构团队 数据仓库 /数据系统 |数据平台 2019 中国数据智能管理峰会

4. WHY 为什么 数据生产力发展 • 数据标准体系 • 数据治理系统 上层建筑 • 数据平台规模 • … 反 作 决 用 定 • 业务复杂程度 • 数据使用范围 StartUp Business PlatForm 经济基础 • 业务体系量级 • DataSet : • … 100+ 1000+ 10000+ • DataUser: 10+ 100+ 1000+ • Solution: WhatEver DataWarehouse DataLake 2019 中国数据智能管理峰会

5.WHAT 是什么 高效率 &易使用 什么是 数据治理 数据仓库 方法论 标准化 & 规范化 工具化 & 自动化 2019 中国数据智能管理峰会

6.WHO 谁需要 谁需要用数据 业务方 数据仓库 + 谁管理规整数据 算法策略 技术 2019 中国数据智能管理峰会

7.DATALAYOUT 数据分层 • 业务指标与维度分析 • 计算密集型数据服务 业务要什么 业务应用层 OLAP分析报表 | Dashboard | 用户标签服务 … • … 顶 体 设 计 中间汇总层 对象维度信息 | 主题汇总信息 | 维度汇总信息 … • 多方复用的中间结果 • 关联紧密的维度 JOIN 仓库存什么 • … 底 基础加工层 字段命名统一 | 度量单位统一 | 异常数据处理 … 体 设 计 • 数据库 Schema • 字段业务含义 • 事件埋点信息 技术有什么 原始接入层 DataChangeLog | EventLog | DataBaseSnapshot… • … 2019 中国数据智能管理峰会

8.DATAFLOW & DATAMODEL 数据流 & 数据模型 ✓ 数据流设计 ✓ 数据表设计 1. 维度越来越少 1. 维度的取舍与命名 -区分粒度的信息减少 -哪些信息在哪一粒度下有效 报表 维度 度量 粒 汇总多维 度 变 粒度 化 对象维度 / 对象事件汇总 维 度 对象明细 变 化 事件多维汇总 事件明细 2019 中国数据智能管理峰会

9.UNIFORM & STANDARD 规范 & 标准 ✓ 表征统一 ✓ 逻辑统一 ✓ 知识沉淀 1. 表名规范 1. 统一处理逻辑所处层级 1. 新人学习培养 -分层名 + 业务数据流名 + 维度内容名 + 粒度 -事件分流在基础加工层做 | 主题维度汇聚在中间汇总层做 -快速掌握学习迁移 名 2. 指标处理逻辑统一 2. 提高用户使用 2. 字段名规范 - 精确度统一| 定义原则统一 - 培训文档 | 需求模板 - 相同实体对象标志一致 | 相同描述维度名称一 3. 库作用统一 致 - 线上库生产SLA| 线下库业务测试 | 临时库 Ad-hoc 使用 3. 维度值规范 - 异常取值逻辑与结果一致 | 度量实体单位一致 质量 + 易操作 + 易管理 2019 中国数据智能管理峰会

10.PROJECT FLOW 项目流程 补充设计 功能迭代时 功能开发时 • 初始化构建数据设计 • 数据流合并分裂 • 数据流与模型设计 • 业务发现遗漏时 • 数据模型变更 • … • … • … 2019 中国数据智能管理峰会

11.PROCESS 负责 参与 角色与流程 流程 / 角色 需求方 数据产品|分析 数据仓库 技术开发 应用需求 数据需求 模型评审 仓库测试 验收上线 数据交付 2019 中国数据智能管理峰会

12.TOOLS & AUTOMATION 自动化 & 工具化 ✓ 元数据管理 ✓ 数据血缘 ✓ 数据质量 2019 中国数据智能管理峰会

13.TOOLS & AUTOMATION 元数据管理 ✓ 数据洞察 -业务,标签搜索|scheme信息 仓库存储信息/质量报告 ✓ 数据集成 : : : - 数据源信息|同步配置 | | | ✓ 数据开发 - 作业配置|调度配置 : : : ✓ 运维管理 | | | - 运行日志|监控报警信息|资源成本 - 存储管理 2019 中国数据智能管理峰会

14.TOOLS & AUTOMATION 数据血缘 ✓ 数仓血缘 -表、字段血缘|作业|应用 ✓ 血缘应用 -冷热数据分析 |链路分析 -质量故障的数据修复 (N eo4j) 2019 中国数据智能管理峰会

15.TOOLS & AUTOMATION 数据质量 ✓ 支持多规则的数据质量报告 -完整性|准确性|及时性 ✓ 数据质量故障的熔断 - 阻止下游扩散 ✓ 智能报警 -延迟,异常波动|故障报告 2019 中国数据智能管理峰会

16.WHAT`S MORE 更进一步呢? ✓ 数据成本管理 -计算成本 ✓ 数据服务 -用户标签及画像. ✓ 数据产品 -用户行为分析.. ✓ 实时应用 -实时订单.. 2019 中国数据智能管理峰会

17.数仓架构图 2019 中国数据智能管理峰会

18.SKILL MODEL 能力模型 1. 较强的主观能动性, 团队合作意识强 业务知识 -沟通业务需求, 优化数据使用流程 2. 掌握社交数据仓库设计模式 -了解不同存储数据库设计方法并能够互相转化 KV, 关 系数据, 图数据… 3. 较强的程序化,工具化意识 -提高效率,解放生产力 团队交流 工具技术 4. 熟悉业务分析诉求 -紧跟业务迭代,熟知业务变迁 逻辑梳理 2019 中国数据智能管理峰会

19. THANK YOU ! 2019 中国数据智能管理峰会

数据连接未来!围绕Database、Bigdata、AiOps的企业级专业社群。行业大咖、技术干货,每天精品原创文章推送,每周线上技术分享,每月线下技术沙龙,受众20W+。