张茂森 - 滴滴敏捷数据中台实践

滴滴首席工程师张茂森分享《滴滴敏捷数据中台实践》

展开查看详情

1. 滴滴数据体系介绍 精益生产与敏捷创新 演讲人:张茂森

2. 滴滴数据体系介绍 精益生产与敏捷创新 张茂森

3. 滴滴概况 | 交通大数据 超过4800TB 超过150亿 超400亿次 每天处理数据 日均车辆定位数据 每日处理路径规划请求 数据覆盖了交通路况、用户叫车信息、司机驾驶行为、车辆数据等多个维度 滴滴目前对15分钟后供需预测的准确度已经达到了85%

4.业务发展驱动数据进化 业务信息化 信息数据化 数据资产化 资产变现化 • 运营营销信息化 • 从记录结果到记录过程 • 打破烟囱,盘活资产 • 数据平民化 • 研发生产信息化 • 从副产品到精密设计 • 安全合规与治理 • 数据服务化 • 企业管理信息化 • 从决策支撑到数据驱动 • 从量化到标准到优化 • 数据智能化 ⚫ 业务烟囱 ⚫ 计算存储落后 ⚫ 数据质量混乱 ⚫ 使用门槛高 ⚫ 创新乏力 ⚫ 数据文化薄弱 ⚫ 高投入低产出 ⚫ 变现效率低

5.滴滴的同与不同 数据资源投入-业务价值产出 微笑曲线 网络效应 研发 实验 生产 运营 营销 数据智能 平台类互联网企业 滴滴

6. 中台数据体系建设的核心困难 质量、效率、成本 数据生产价值线 数据 生产 价值 产品困难: 组织困难: 多场景,全链路的复杂需求 分 多团队,多目标的协作需求 质量、效率、成本 析 • 业务人员 • 数据工程 • 业务分析 • 产品研发 想 • 数据科学 • 人工智能 法 数据创新价值线

7. 高价值、高可靠、高效率、低成本的 数据服务交付 滴 精益数据生产 智能数据目录 敏捷数据创新 滴 发现、理解、信任、协作、众包 精 价值链 创新网 • 分级 • 用结果 益 • 监控 • 自配置 数 敏捷数据治理 • 复盘 数据资产、安全合规 • 模仿做 据 • 自働化 服务驱动、全面量化、重点攻坚 • 自助化 管 理 数据文化 体 持续改进,尊重人 系 数据系统工具链 数据基础设施

8. 两年来的建设成果 价值交付 NPS从19%到60% 精益数据 智能数据目录 – DataGraph 敏捷数据 20%员工高频使用 生产 系统性对外输出 创新 D0级事故从 非例行任务从 10+降为1 敏捷数据治理 – DataRank 2k+到20k+ 核心数据产出时 资产分从40到70 间提前到5点 数据文化 150+次改进复盘,周活1700到5000+ 数据基础设施+系统工具链:开始对外输出

9. 数据服务 滴滴数据系统组成 业务分析 产品优化 营销服务 流程优化 财务管控 CXO仪表盘 • 应用埋点 • AB Test • 用户分层 • 业务根因 • 多级管控 • 移动App • 运营分析 • 地理围栏 • 标签画像 • 财务根因 • 自助式自服务 数据资产 数据赋能 • 高效率全方位 DataGraph DataRank 数据建设 自助查询 可视化分析 • OneSearch • 资产价值分 • 数据全链路 • 协助模板 • 交互分析 • 全链路能力覆盖 • 数据字典 • 资产归属 • 分级保障 • 查询加速 • 报表、仪表盘 • 数据图谱 • 资产优化 • 数据治理 • 数据API • Notebook 数据研发 数据中间件 开发工作台 数据质量 数据通道 DataHub • 数据开发 • 监控 • 实时采集 • kafka • 数据测试 • 告警 • 批采集 • ES • 数据发布 • 运维 • Binlog采集 数据架构 实时计算 Hadoop体系 Key-Value & OLAP • Flink • Hadoop • HBase • Woater • Hive • Presto • Druid • Spark • Clickhouse

10.智能数据目录 — 让数据越用越好用 • 统一的元数据检索能力,支持Hive、 报表等多种数据实体的统一搜索 • 基于数据价值或热度的综合排序 • 业务驱动的数据图谱 • 众包协作的知识沉淀

11.精益数据生产 — 让数据持续可信赖 如何做好数据的基础质量? 如何找到需要的数据? 稳定性建设 体系化建设 • 数据上下游联动(全链路 • 指标口径管理(数据字典) SLA) • 元数据(数据地图+OneSearch) • 埋点管理 • 资产价值评估体系(DataRank) • 数据采集 • 数据开放 • 运维/质量监控 • 数据安全规范 • 90%复盘率 指标口径变动100%管控 建立数据委员会,推进业务-运维-数据的 所有元数据信息一键快速查询 协同机制 精准评估每一张表的数据影响和价值 一键埋点,用户行为轨迹全记录 数据开放率99.04% 数据采集秒级同步,准确性99.999% 隐私数据全脱敏,完备的权限管控机制, 数据链路全监控,自动定位关键节点 数据泄露0事故 4 3 如何更快更简单的使用数据? 2 精细化建设 核心数据5点产出(业内普遍7-8点) 1 • 分级保障 • 数据图谱与数据中间层 开发效率提升35% 指导数据优化方向 • 成本优化 • 数据价值量化

12.标准化数据服务 — 让数据持续可依靠 交互式查询接口 | 数据图谱 | 数据地图 | DataRank管理 | 数据API 查询加速数据层 各业务主题分析数据层 小时级 业务ER关系还原 标准多维立方体 延迟近源数据层 中间数据层 数据开发工作台 监控&告警

13.实时数据集成服务 — 让活数据无处不在 • 采集集群总规模约300+ • 日均查询2千万次 • 数据源约4500+个,Agent • 平均响应时间<1S 数量27000个 • 稳定性99.996% • 峰值摄入数据条数2900w/s

14. 敏捷运营分析 — 让业务持续可创新 基于数据湖解决方案,实现快速找数据、即时分析数据,沉淀并复用分析过程 分析师/BI 找数据 极速分析 可视化洞察 关键词检索 知识推 智能SQL IDE 标准SQL语法 傻瓜式操作 荐 收到数据需求: 数据科学 统计专快车分 数据图谱 数据价值 Book 每日超十万任务 城市的运营指 识别 比hive/spark快10倍 标 全类数据一站式搜索 十余类可视化方式 求缺 数 据 , 向 运营/业务人员 BI 提 工作复用 周期性数据需求, 需 可以制作成模板 已有SQL模板, 模板分享 可以自己分析 数据了 定时执行 权限管理 专快车运营日报 数据湖

15.数据驱动营销 — 赋能AI放大价值

16.中台是买不来的 尊重客观经济规律的 管理和治理结果 面向长期用户价值的分工与合作 中台是组织与体系建设的成果

17. THANKS 构建一个人人用好数据的新世界

18.THANK YOU!

数据连接未来!围绕Database、Bigdata、AiOps的企业级专业社群。行业大咖、技术干货,每天精品原创文章推送,每周线上技术分享,每月线下技术沙龙,受众20W+。