MaxCompute在高德大数据上的应用

分享嘉宾:苗翌辰 高德数据技术专家 多次参与公司的数据价值体系建设。2018年上半年,高德联动计算平台、数据技术平台两个BU,作为项目的主要技术架构负责人,超额高质量的完成百P数据存储体系的重构,体现了技术和业务的完美落地。
展开查看详情

1.MaxCompute 在高德大数据上的应用 高德数据中台

2.目录 01 我们的业务和数据 02 我们如何管好数据 03 未来展望

3.

4.01 第三方开放平台 业务概述 高德 高德地图App 苹果地图(中国) 车载设备

5. 客户端 AppleMaps 高德App 第三方App 车载设备 01 中间层 苹果地图 AMap 开放平台 车联网 业务架构 服务引擎 搜索 定位 导航 高德 442阵型 公交 实时交通 公共出行 基础地理信息 路网 商户 POI 自采 行业合作

6.01 DAU突破1个亿 用户驾车导航总里程 进入阿里App亿级俱乐部 7天突破135亿公里 地球-太阳往返45次 数据概览 高德 数千 百PB+ 集群计算节点 集群存储总量

7. Application 数据应用 智能出行 智慧交通 地图生产 车联网 P latform 数据平台 02 数据挖掘 用户画像 驾驶行为 道路挖掘 POI挖掘 权 限 平 台 S PA 架 构 数据适配 可视化 数据清洗 行为关联 多源融合 管 理 工 具 4个统一 统 统 一 一 数据建模统一 数据仓库 人 车 路 地 Source 数据源层 位置 行为 文本 图像 数据收容统一 高德大数据架构

8. 数据集成 02 数据服务 数据开发 One 数据研发 运维中心 数据安全 数据地图 数据质量

9.02 易用 效率 弹性 One 特点 零学习成本 完备的开发套件 一键扩容 完善的IDE 高效协同开发 弹性资源 • 上云(201410) • 魔方(201803) • 十一(201810)

10. 在线查询 前台应用 Mongo 稳定 HBase MySQL OTS RDS Tair DB 02 离/在线数据处理 Hive MapRe duce Spark/ 无缝平迁接入 MaxCompute 高德应用 Hadoop Storm 离线计算 在线计算 最少代码改动 易用-上云 实时日志采集 一键切换 Flume TimeTunnel 生产服务器 生产服务器 可视化配置 生产服务器 生产服务器 2014年高德数据存储/处理体系 全产线2个月 上云后高德数据存储/处理体系

11.02 代码管理解决方案 一键式运维管理 高德应用 易用-上云 可计量资源管理 可视化安全审批

12.02 烟囱多 时延高 高德应用 20余个数据仓库 核心数据无法保证7点产出 效率-魔方,问题 数据冗余度大于30% 平均10点最晚12点 看不见,看不全

13.02 数据量大 人员多 排期紧 高德应用 治理百PB数据 项目团队超百人 效率-魔方,挑战 • 数十个项目空间 数百张表 • 集团-数据技术及产品部 • 百余个数据源 • 集团-计算平台事业部 开发时间2个半月 • 高德-全产线 解法:人使用研发工具,在规范化的流程中做协同开发

14. 统一标准 数据 Diff 不能超过0.5% 02 统一规范 数据接入规范 代码编写规范 统一语言 SQL Java Python 统一流程 作业开发流程 高德应用 代码评审流程 调度配置规范 统一建模 效率-魔方,指引 QA测试流程 研发自测规范 OneData QA测试规范 发布上线流程 统一工具 数据开发 任务发布 数据质量 数据地图 数据权限

15.02 数据血缘可视化 开发/测试流程并行 高德应用 效率-魔方,工具 代码云端版本管理 一键数据探查

16. 1个仓库 02 高德应用 百P数据 千亿算力 效率-魔方,成果 月增速降低40% 总产出时间缩短2小时 计算提效30%

17.  数据量随业务快速增长  任务计算性能受到挑战 02  平台稳定性受到考验 凌晨5点前全部产出 高德应用 弹性-十一 10.1 7天长假 出行趋势图 10.1 10.5

18. 20180902  负责人在线值守 弹性资源  制定应急预案 人员保障 02    全链路数据压测  长尾优化处理 参数优化设置 UDF性能优化 计算优化 高德应用  小时级任务拆分  资源弹性使用 弹性-十一 20181002  全域任务分级  一键资源扩容 峰值下降 弹性资源  调度运维错峰 资源利用 错峰调度  专人运维协助  性能持续提升  封网禁止发布  算力输出保障  过保机器下线 环境稳定 凌晨3点全部产出

19.02 业务成果 路网覆盖

20. 新路、过期路 02 轨迹热力图 现有路网 业务成果 路网挖掘 60 40 20 封路、交通事件 0 通车流量变化 用户上报事件

21.02 业务成果 路况预测

22.02 业务成果 交通预测 http://report.amap.com/

23. 政府与 应用 用户 生态 城市 更优秀的 全局智能化 场景化的 03 出行工具 交通调度 LBS服务 技“数”高德 更专业的Application 未来规划 更强大的Platform • 模型在线化、场景化 AI算法 • 路网全局优化 • 全链路数据融合 多源融合 • 多场景数据融合 全域数仓 • 覆盖高德全业务 • 实时数仓 更丰富的Source

24.连接真实世界,让出行更美好!