李炉阳 - 滴滴数据资产管理实践

滴滴数据资产平台负责人李炉阳分享《滴滴数据资产管理实践》

展开查看详情

1. 滴滴数据资产管理实践 演讲人:李炉阳 2019 中国数据智能管理峰会

2.自我介绍: 李炉阳 • 2010~2017 阿里巴巴,担任数据架构师, 整体负责数据地图、数据管理等; • 2017~now 滴滴出行,负责数据开发 平台和资产管理平台; • 丰富的大数据资产管理和治理经验。 2019 中国数据智能管理峰会

3. 目录 / Contents 01 滴滴的数据资产概述 02 平台建设 之 数据开发平台 03 平台建设 之 数据应用平台 04 平台建设 之 资产管理平台 2019 中国数据智能管理峰会

4. 滴滴的数据资产概述 2019 中国数据智能管理峰会

5.滴滴的数据资产 5.5亿+ 1000+座 700亿 150亿 用户 全球城市 日ETA请求 日定位数据 日新增106TB+数据 日均处理处理4875+TB数据 人 路 车 • 司机 • 静态信息:全球、全国、 • 静态信息:归属人/公司、 • 乘客 城市等各粒度 车牌号、车型… • 动态信息:行程轨迹 • 动态信息:里程数、维保 记录 2019 中国数据智能管理峰会

6.滴滴的数据特色 03 02 01 地理位置、轨迹相关 的数据占比高 实时数据占比高 结构化数据为主, 价值密度高 2019 中国数据智能管理峰会

7.滴滴的数据平台业务架构 • 元数据打通,更准确识别公司核心数据资产,辅助资产信息的完 善,从而沉淀数据资产 业务应用/DS 内部用户/DS 大屏用户 数据消费 统一数据门户 PC APP-H5 数据大屏 数据应用 产品平台 BI自助分析 决策分析 业务分析 看板分析 … 工具 技 术 & 数 数据服务化 业 据 内 数据 务 容 指标管理平台 公共层 元 建 数 设 资产管理平台 据 打 通 数据开 数据同 数据开 调度 监控告 数据质 项目管 权限管 发平台 步 发 警 量 理 理 离线引擎 实时引擎 机器学习引擎 数据接入 2019 中国数据智能管理峰会

8.平台建设 之 数据开发平台 2019 中国数据智能管理峰会

9. 数据梦工场 数据应用产品 极致简单 数易 BI实时监控 监控大屏 北极星 把脉 Omega 标签系统 智能地图 只要会SQL,人人都是数据玩家! …… 一站式智能数据开发、生产平台——数据中台(数据梦工场) 完整闭环 数据开发 调度 同步中心 数据安全 • 一站式数据开发生产平台 机器学习 数据地图 监控告警 数据质量 资产管理 算法平台 • 底层封装、模块中心化、平台应用模块智能联 动,提升开发效率 …… 安全保障 离线计算引擎Hive 、 流计算引擎 数据检索 消息队列 Hbase 机器学习 Spark Flink ES Kafka、DDMQ Phoenix TensorFlow • 权限控制责任到人,权限到字段 • 开发生产数据隔离多种措施保障数据安全 内置 衍生 规范 更智能化 产出 行业领先 的 语义明确 • 基于开源引擎 平台服务 的 • 基线监控机制,标记最核心计算通路,确保核心 元数据 数据及时产出 高质量的 元数据 经验积累 国内领先的大数据体系建设及数据治理经验 2019 中国数据智能管理峰会

10. 产品功能 数据同步 数据开发 调度系统 监控报警 数据质量 项目管理和权限管理 稳定高效异构数据源同步服务。 1)集成实时、离线两种方式; 2)快速扩展,插件式拓展多种同步类型; 3)自主运维,同步相关指标清晰可见; 4)为流计算提供实时数据源; 2019 中国数据智能管理峰会

11. 产品功能 数据同步 数据开发 调度系统 监控报警 数据质量 项目管理和权限管理 针对数据开发、临时查询场景,为用户提供更加规范、顺滑的数据开发体验: 1)智能编辑器,支持各种库表、函数、变量 联想输入、动态语法检查等 2)提供SQL格式化、错误提示,提供更顺滑 的SQL开发体验 3)支持各种SQL(Hive、Spark、Presto)、 Shell、PySpark等类型任务支持, 4)支持文件多版本、任务回滚; 5)直通调度,字段检测依赖,方便测试和上 线任务。 6)提供历史查询记录和大规模数据下载能力 (经过安全审批) 2019 中国数据智能管理峰会

12. 产品功能 数据同步 数据开发 调度系统 监控报警 数据质量 项目管理和权限管理 支持百万级的离线例行任务调度,保障业务稳定运行。 1)提供开发、生产两套环境,相互隔离 2)支持MR/Hive/Spark/Shell等不太任 务类型的任务调度 3)支持小时、天、周、月多种调度周期 配置 4)数据回溯简单易用:支持重跑、支持 多维度运维 2019 中国数据智能管理峰会

13. 产品功能 数据同步 数据开发 调度系统 监控报警 数据质量 项目管理和权限管理 智能监控任务运行情况,异常时发出告警。 体系化解决“是否报警、何时报警、如何报警、给谁报警”, 杜绝无效报警; •表规则监控 •数据量 •任务出错 数据 数据 数据 •字段规则监 资源 •存储告警 •流量 •任务延迟 接入 加工 质量 控 告警 •计算告警 •异常数据 •基线延迟 •自定义监控 • 抽象“数据基线”保证重要数据的及时产出, 并动态规划相关任务优先级。 • 结合算法,预测可能的数据延迟,提前预警, 将影响面降到最低。 • 升级逻辑,避免漏处理。 2019 中国数据智能管理峰会

14.产品功能 数据同步 数据开发 调度系统 监控报警 数据质量 项目管理和权限管理 全链路的数据质量管控,实现数据质量校验、通知、管理能力 1)完整配置 VS 快速配置 2)强规则 VS 弱规则 3)表规则 VS 字段规则 4)预设规则 VS SQL规则 41% 2019 中国数据智能管理峰会

15. 产品功能 数据同步 数据开发 调度系统 监控报警 数据质量 项目管理和权限管理 统一便捷的进行项目管理和权限管理。 个人资产 1)项目管理提供项目自身的增删 我的资产 资产概览 大盘 待办 趋势 改查以及项目内的人员、角色、 资产明细 表 任务 我的应用 应用概览 单应用管理 趋势&明细 生产账号、库表、存储和队列等 数据管理 成本管理 表管理 数据编目 资产管理功能。 数据加工者 全局资产 资产仪表盘 数据量 数据流 趋势 2)权限管理针对人员、角色的权 资产管理 资产分析 表 任务 quota 限申请和主动授权,以及过期权 限、闲置权限的回收和权限审计 数据管理者 业务 全局管理 应用血缘 等功能。 2019 中国数据智能管理峰会

16.梦工场-模块关系图 数据 数据 同步 质量 实时数据源 提交 触发 质量告警 项目 管理 数据 提交 离线 触发 监控 开发 调度 告警 权限 管理 提交 实时任务告警 ML任务告警 实时 机器 运维 学习 2019 中国数据智能管理峰会

17.梦工场-典型的离线场景 数据库导入 日志数据导入 其他来源数据 离线同步 实时同步 实时同步 实时同步 数据导入 日志 导入1 导入2 导入3 导入4 导入5 导入6 check 数据加工 计算1 计算2 计算3 计算4 计算5 数据导出 计算6 计算7 计算8 导出1 导出2 导出3 导出4 导出5 2019 中国数据智能管理峰会

18.梦工场-优先级上推策略 3 5 5 数据库导入 日志数据导入 其他来源数据 3 1 5 5 离线同步 实时同步 实时同步 实时同步 数据导入 2 3 3 3 5 5 日志 5 基线(业务)->任务 导入1导入2 导入3 调度机 ->导入4 导入6 全流程打通 导入5 -> yarn check 数据加工 2 3 1 3 5 计算1 计算2 计算3 计算4 计算5 数据导出 2 3 5 计算6 计算7 计算8 1 2 3 4 5 导出1 导出2 导出3 导出4 导出5 2019 中国数据智能管理峰会

19.梦工场-业务下线 数据库导入 日志数据导入 其他来源数据 离线同步 实时同步 实时同步 实时同步 数据导入 日志 导入1 导入2 导入3 导入4 导入5 导入6 check 数据加工 计算1 计算2 计算3 计算4 计算5 数据导出 计算6 计算7 计算8 业务下线 导出1 导出2 导出3 导出4 导出5 2019 中国数据智能管理峰会

20.平台建设 之 数据应用平台 2019 中国数据智能管理峰会

21. 数易 数易敏捷、自助的数据分析、可视化平台。 数易解决用户三大痛点问题: ➢ Where:去哪儿看数据 ➢ What:数据分析、可视化可以产出哪些内容? ➢ How:业务需求那么多,如何快速响应,更方便、自 助实现数据可视化? 2019 中国数据智能管理峰会

22. 数易技术特点 可视化能力 开放的 API 接口 分析 可视化 BI层的可扩展性 无缝对接主 查询层 流大数据处 查询层的可扩展性 理套件 开放分析功能的查询接口 扩展对接多种数据源 数据存储层 可对接实时、离线、文件多种 存储层的可扩展性 源数据类型 2019 中国数据智能管理峰会

23. 数据APP 滴滴数据App,让用户随时随地第一时间触达数据,掌握业务,结合数据知识圈子分享, 是滴滴内部的一站式数据移动平台。 2019 中国数据智能管理峰会

24. 标签系统 标签系统是基于海量标签进行用户分群、快速圈出特定人群、对人群进行计算及分析, 支持精细化运营和广告投放等活动的运营支持服务系统。 数据分析 产品策略 效果追踪 ➢ 分析速度快 ➢ 快速制定策略 ➢ 策略收益分析 ➢ 数据颗粒度足够细 ➢ 提供策略服务 ➢ 目标人群关键指 ➢ 数据交叉分析 ➢ 寻找相似人群 标趋势分析 2019 中国数据智能管理峰会

25.标签系统 多维度数据分析 用户单一维度构成分析 交叉维度分析 用户核心路径漏斗分析 重点用户关键指标趋势追踪 2019 中国数据智能管理峰会

26.标签系统 策略制定 快速圈定目标用户 制定千人千面的策略 人群相似性扩展 探索业务增长 2019 中国数据智能管理峰会

27.业务BI监控 业务监控大屏监控滴滴核心业务指标,是管理者、产品、运营等观察业务状况的“眼睛”。 基于实时计算能力分钟级别发现业务故障 ➢ 图表配置简单灵活 ➢ 支持多源数据接入 ➢ 支持多维度分析 2019 中国数据智能管理峰会

28. 监控大屏 订单数据毫秒级更新,适配实时数据彰显酷炫视觉特效 ➢ 实时业务核心数据监控+仪表盘的展示 ➢ 短信/电话预警配置 ➢ 支持实时、离线数据大屏 ➢ 各类展厅、展会数据大屏 2019 中国数据智能管理峰会

29.平台建设 之 资产管理平台 2019 中国数据智能管理峰会

数据连接未来!围绕Database、Bigdata、AiOps的企业级专业社群。行业大咖、技术干货,每天精品原创文章推送,每周线上技术分享,每月线下技术沙龙,受众20W+。