面向大规模并发实时数仓业务实践- ADB

面向大规模并发实时数仓业务实践- ADB
展开查看详情

1. 大数据分析与生态系统论坛 面向大规模并发实时数仓业务实践- ADB 孙国荣 阿里云智能事业群

2.Agenda p云计算+大数据时代OLAP新需求 p产品技术及创新 p面临的技术挑战 p阿里ADB关键技术剖析 p典型业务落地分享

3.云计算+大数据时代OLAP新需求 高并发 大容量 复杂度 实时性

4.云计算+大数据时代OLAP新需求 OLAP项目建设及运维 • 产品技术选型—多样性、组合 • 应用平滑迁移—SQL兼容性 • 数据模型重新定义 • 数据质量整治 • 迁云工程 🛠 • 在线弹性扩展 • 数据资产保护—备份/异地容灾

5.产品技术及创新 OLAP产品技术发展及创新 • 行存→换代列存→行列混存 • 索引:行索引(B+tree)→块索引→智能索引 • 存储:压缩、SSD加速,存储计算分离 • 计算引擎:MPP • 优化器:CBO,RBO,HBO? • 硬件加速:GPU • Cloud-Native:弹性

6.面临的技术挑战 高性能、低成本、更智能、更安全 • 机器学习:优化器+参数配置动态调整 • 硬件加速:GPU、FPGA • HTAP:成为OLTP和OLAP的一个能力扩展 • 异地容灾:大数据量异地容灾 • 安全:加密与安全 • 多模态数据:结构化+非结构化融合

7.ADB关键技术剖析 ADB—产品简介 • 分析数据库服务(Analytic DB,简称:ADB,原ADS),是阿里 巴巴自主研发的海量数据实时高并发在线分析(Realtime OLAP) 云计算服务 Analytic DB

8.ADB关键技术剖析 ADB产品演进历程 • 阿里集团内部、公有云客户、专有云(私有云),1万+节点 • 阿里云大数据三大必选产品之一

9.ADB关键技术剖析 ADB整体技术架构

10.ADB关键技术剖析 弹性资源管理--ECU

11.ADB关键技术剖析 多租户—在离线负载混合部署

12.ADB关键技术剖析 行列混合存储实现 SELECT * FROM tab WHERE id=? AND time = ? SELECT sum(c1) FROM tab WHERE time BETWEEN ? AND ?

13.ADB关键技术剖析 超大规模的立即可见实时写入—500w+/s

14.ADB关键技术剖析 智能全索引 n 块索引—元数据 n 倒排索引: Ø 分区表的所有列(适用Bitmap索引的列除外)都建了倒排索引,key 为排序的列值,value为对应的RowID list,所以对于任何列进行 FILTER(WHERE key=value)或者JOIN查询都非常高效。 Ø 同时索引采用pForDelta压缩,拥有高压缩比(1:4~1:32)和解压速度 。 nBitmap索引: Ø 对于值重复率高的列--1024,建立Bitmap索引。 n 区间树索引: Ø 为了加速范围查询,对于类型为数字、时间列同时建立了区间树索引。 Max,min,sum,count 列数据 Select max(c1) ,count(*) from tab where … 1 2 Select * from tab where c1<1 3 Data Block . 30000

15.ADB关键技术剖析 计算引擎 • MPP+DAG双引擎 • 流式分时执行 • TPC-H/TPC-DS • 预告:本周公有云 发布TPC-H公开测 试,深圳region

16.典型业务落地分享 数据链路 生产业务数据库 Oracle 实时同步 MySQL DTS/Datax AnalyticDB RDS DRDS SQL Sever MQ 流计算 实时写入 分析提速—分析在线化 T+1 or 小时级同步 大数据平台 Maxcompute/ Hadoop

17.典型业务落地分享 经典实时数仓场景

18.典型业务落地分享 大数据平台加速场景

19.典型业务落地分享 实时计算-结果回流场景

20.典型业务落地分享 ADB性能指标—数据来自线上业务系统 2000+物理机 3PB+. 20000+表 3万亿 规模 单集群 单DB 单表 500w+ 1000亿+ 3w+ 性能 每秒写入记录 每日入库 QPS

21.典型业务落地分享 阿里集团双十一业务情况 • ADB支撑阿里集团大部分OLAP • 总共300+业务,单日查询次数1亿+

22.典型业务落地分享 GPU硬件加速数据银行—离线计算走向实时计算 • 数据银行是电商平台品牌 商的私有数据中枢,典型 用户场景 “沉淀,分析, 运营”。 • PB级别,单表超过万亿 • 复杂实时计算涉及到多个 几百亿表的交并差 • 内嵌GPU执行引擎, 加速 Group by、Hash join、Set 等算子

23.典型业务落地分享 城市大脑 p ADB 在专有云项目上首次达到 4000+ ECU ,近1000物理机的计算规模 p 实时数据的写入,TPS达到 500万/sec p 支撑每日实时写入3000亿条记录 p ADB 集群每日新增数据量高达 50TB p ADB MPP 计算引擎支持超过 QPS 2000 复杂查询 的高并发极速运算

24.典型业务落地分享 城市大脑—向量计算成为基础服务 p “人脸识别” 和 “车辆智搜”等业务 p 在检索性能和准确度上均达到业界领先水平 p 在数据规模上可以支撑百亿级别向量库搜索 p QPS可支撑1000以上

25.典型业务落地分享 某快递集团替换传统业务--去IOE 背景:原来平台采用IOE架构,无法弹性,运维成本高。 价值:弹性计算、稳定轻松应对双11业务洪峰 QPS:2000+,混合查询:详单查询+统计报表 全国所有10几万机构客户 总机构 IOE系统 迁移前后 阿里云新一代寄递平台 省公司 省公司 省公司 实时数据分析平台(ADB) … IOE系统 IOE系统 IOE系统 …

26.典型业务落地分享 某城市交通—替换Hadoop+ES 海量数据:一个市仅交通卡口过车纪录表达到200亿级别(保存1年) 每日增量:市级系统每天数据增量5000万条左右 实时可见:过车信息实时查询监控,查询要求RT<1s 复杂查询:多表查询(join)、模糊查询(like)、轨迹分析(in)、区域碰撞 (intersect)、短时过车(having count) 3 3 3 8 0

27.典型业务落地分享 公有云—替换MongoDB n 业务诉求:100亿数据,实时入库更新,快速复杂分析 n 历史问题:PHP打点数据早期存MySQL ,后来换成 mongoDB, 性能均无法接受 n 改造收益:实时入库,复杂分析从分钟级到2秒内 分析引 业务系统 运营系统 擎 用户分析 活动效 果 APP质量 分析 ADB数据库

28.典型业务落地分享 公有云—混合云 n 极低成本: 年成本30万+,投入2人1.5个月完成数据化建设 n 极高性能:海量数据多表join,毫秒级返回 n 极高效率:数据接入到数据化运营上线,仅历时1个半月 业务库 数据传输 分析引擎 可视化层 QBI报表 DTS ADB数据库 Datav大屏

29. Q&A Thank you!