下一代云原生数据库技术趋势

下一代云原生数据库技术趋势

展开查看详情

1.李飞飞 阿里巴巴集团副总裁,高级研究员, 阿里云智能数据库总负责人

2.下一代云原生数据库技术趋势 李飞飞 阿里巴巴集团副总裁 数据库产品事业部总裁 达摩院数据库首席科学家, ACM杰出科学家

3.不同种类的数据库系统 TOP 30 Database Products

4. DB-Engines (343 in total) DB-Engines

5. Top 云厂商数据库产品 数据库引擎产品 自研引擎 工具服务 核心自研产品 AWS 14 8 4 Azure 9 5 3 Cosmos DB 阿里云 14 6 4 POLARDB ADB Google 7 3 1 腾讯云 14 5 1 CynosDB 华为云 11 5 2 高斯数据库系列 (100/200/300)

6. 数据库: 云上应用关键一环 “The real battle will be in databases” Source: - “How Amazon Web Services aims to win cloud computing’s next big battle” SiliconANGLE - “AWS to Oracle: Now it's our turn and we got next”ZDNet IaaS 数据库 智能化应用 数据的产生,存储, 和消费 Oracle、Google、Amazon、Apple、Microsoft、IBM、Facebook、SAP、Alibaba、Huawei、Tencent、Baidu Oracle、Google、Amazon、Apple、Microsoft、IBM、Facebook、SAP | 阿里巴巴、华为、腾讯、百度

7. 数据库发展-业务视角 ๏ 事务性数据库 (OLTP) ๏ NoSQL数据库及专用型数据库 ‣ 结构化数据库 ‣ 非结构化或半结构化数据(例如文档,图) ‣ 银行转账记账,淘宝下单订单商品 ,不强制数据一致性 库存管理 ‣ 挑战: 高并发,高可用,高性能下的 正确性和数据一致性 ๏ 分析型数据库 (OLAP) ‣ 海量数据,数据类型复杂 ๏ 数据库服务+管理类工具 ‣ 分析条件复杂 ‣ 数据传输,数据备份,数据库管理等 ‣ 深度智能化分析 ‣ 挑战: 高性能,分析深度,与TP数据库的联动联动

8. 数据库系统演进 Heterogeneous Data Structure Data Graph Time Series Vector 结构化数据 结构化数据 Spatial Data Text RDBMS Data warehouse [ SQL+OLTP ] Data Cube RDBMS [ ETL+OLAP ] NoSQL/NewSQL DB [ Multi-Model + HTAP ]

9. 云原生架构+分布式: 弹性计算、弹性存储、水平拓展 单节点 共享状态 分布式 Network Network DB DB DB DB DB DB DB DB 本地磁盘 共享存储 Disk Disk Disk Disk 兼容性 水平拓展 e.g. MySQL, PG e.g. Aurora, POLARDB e.g. DRDS, PolarDB-X (DRDS+PolarDB), Spanner, Redshift, ADB

10. Multi-Model多模数据库系统 北向 查询接口与标准 SQL Put/Get SPARQL DocQL GQL .... 数据库引擎 数据结构与类型 结构化数据 图 时序 向量 文档 时空数据 非结构化数据 南向

11. 数据库智能化+自动化管控平台 提升数据库内核与数据库平台运行效率、节省运行成本 平台Portal数据展现 自动优化 自动异常修复 自动安全保护 容量自动管理 运维自动化 SQL优化 异常检测 安全检测 资源预测 资源管理 安装配置升级 空间优化 运行保护 安全保护 容量预警 HA、容灾 监控告警 配置优化 异常定位 漏洞定位 智能调度 备份恢复 扩容缩容 全链路优化 异常修复 安全修复 元数据 任务调度 数据采集 机器学习算法

12. 新硬件: 软硬件一体化设计 APPS File system FTL Open Channel 10 Library NVMe Driver Open Channel Firmware SSD Controller RDMA Open-Channel SSD NVM 3DX Point GPU/FPGA

13. Singles Day (11/11) 2018 Database workloads 122x First second on 00:00:01, 11/11/2018 Hardware Software Service

14.阿里云数据库产品是一个完整的生态体系 应用评估、迁移与实施 一键无缝迁移上云 丰富的第三方合作生态 支持PB级数据库实时分析

15.云原生数据库: POLARDB (VLDB2018, SIGMOD2019) ๏ 共享存储 + 一写多读: 弹性+按需+按量 ‣ 存储计算分离 ‣ 100TB 存储容量 ‣ 100万 QPS/节点 ๏ 唯快不破 ‣ 分钟级 备份恢复 ‣ 秒级 弹性扩容 ๏ 高可用 ‣ Raft 协议提供金融级高可用 ๏ 兼容生态 ‣ 100%兼容 MySQL 5.6 ‣ 2019:MySQL 8.0, Oracle, PG

16. MySQL高可用 虚拟机/容器 虚拟机/容器 虚拟机/容器 虚拟机/容器 备 数据库B 数据库A 数据库a 数据库C 本地SSD 本地SSD 物理服务器 物理服务器 MySQL 高可用(Active/Standby)

17. POLARDB架构细节 物理服务器 物理服务器 物理服务器 虚拟机/容器 虚拟机/容器 虚拟机/容器 虚拟机/容器 虚拟机/容器 虚拟机/容器 主 读 读 数据库D 数据库A 数据库C 数据库a 数据库B 数据库a 共享分布式存储 Active-Active + 读写分离 + Serverless 存储

18. POLARDB架构细节 ECS ECS Intelligent proxy PolarProxy 主地址 焦群地址 POLARDB 100% Compatible PolarFS PolarProxy 接入代理 Storage Optimized PolarStore For Database 主节点 读节点 读节点 … 读节点 数据库引擎 已发布: MySQL 5.6 / 8.0 兼容版 PolarStore 共享存储 公测中: Oracle, PostgreSQL 11 兼容版 POLARDB

19. POLARDB架构细节: 共享存储-分布式+三副本 Primary Reader Reader 数据库集群 100T,最高容量 存储于计算分离,分布式存储集群可线性扩展 polarFS polarFS polarFS 分布式文件系统 A 无锁备份 共享存储 a 物理结构 存储层快照,秒级备份,数据库无需加锁 a ChunkServer ChunkServer ChunkServer ChunkServer 用户态文件系统 用户空间I/O栈 RDMA&SPDK ParallelRaft 无锁共享

20. POLARDB架构细节: 一写多读集群 Primary Reader Reader Reader 数据库集群 主节点 读节点 读节点 读节点 5分钟,快速伸缩 2核vCPU升级到32核,5分钟生效! 双节点扩展到4节点,5分钟生效! 成本降低30%~50% 共享存储 数据文件 Redo日志文件 Serverless计费 16个节点,只需1分钟存储 统一存储池,减少资源碎片 物理日志 一写多读

21. POLARDB架构细节: 接入代理-调度+读写分离 应用程序 读写分离模块 负载均衡模块 统一 Endpoint 快速 Failover 分布式Proxy集群 一个地址,访问所有节点 引擎内选举 高可用切换 安全防护模块 Proxy自动感知并切换流量 Primary Reader Reader Reader 主节点 读节点 读节点 读节点 安全防护 会话读一致性 ACL控制 避免查询丢失 主动防御 Storage

22. POLARDB架构细节: 无损弹性 控制系统 New reader node Primary Reader Reader 数据库集群 计算无损弹性 Monitoring 只读节点快速无损弹性伸缩,最多可达15个 1.Get metrics polarFS polarFS polarFS 分布式文件系统 2.Check metrics Controller 存储无损弹性 共享存储 存储容量无损扩容,最大100TB,按使用量计费 PBD Used Unused New 3.online resize

23. 云上极致弹性 on-demand usage and elastic billing 计算节点资源需求 在线资源消耗 离线资源消耗 新品上市 促销活动 时间 Yearly subscription---50% off 分钟级别弹性按需按量

24. POLARDB-X: 分布式版本-支持水平拓展 (SIGMOD 2019) SQL(DML/DDL/DCL) distributed relational database Stateless computation nodes service SQL SQL Parser SQL Router Transaction Manager Optimizer SQl optimizer and distributed SQL execution engine POLARDB POLARDB POLARDB Distributed storage engine plan executor plan executor plan executor transaction transaction transaction Cross-AZ, LSM-tree based tiered storage service service service X-engine X-engine X-engine Shared storage PolarFS Distributed file system PolarStore

25. OLAP: AnalyticDB-下一代实时交互式数仓 (VLDB 2019) ๏ 兼容生态 JDBC ‣MySQL版本兼容MySQL生态 ‣PostgreSQL版本兼容PG生态 INSERT SELECT ๏ 行列混存引擎 Fuxi ‣高吞吐写入 (140,000 rows/s) Resource Coordinator Coordinator Coordinator Coordinator Manager ‣高并发查询 ๏ 海量数据处理 CUP ‣PB级数据存储+分析 Read Node Read Node Read Node Write Write Write #1 #2 #3 Node #1 Node #2 Node #3 CUP SSD Cache SSD Cache SSD Cache ๏ 查询优化 ‣CBO+全量代码生成 CUP ‣低延时分析 (毫秒级别响应) CUP ๏ 高可用 Pangu Distributed Storage System ‣99.99 HA CUP ๏ 向量分析 disk disk disk disk disk disk disk disk CUP ‣结构化+非结构化数据联合分析

26. Big Data 生态演进,Fast Data 是未来 Realtime Data Fast Full + Realtime Data Online Computing Cloud-Native 41% ↓ 寻求买家… Data Lake AnalyticDB TSDB Analytics

27. AnalyticDB-一个系统一套存储兼顾多种场景 多维分析 ✓ 任意列Join ✓ 复杂长计算任务、ETL 行列混存 (Hybrid Store) 表组/列簇/分区组/Co-located 智能全索引 混合负载管理 (Hybrid Workload) CPU/Mem/Net/IO 高并发低延迟 / 复杂ETL 融合计算引擎 (Hybrid MPP+DAG) 明细查询 实时查询和写入 ✓ 1000+ 列 超宽表 ✓ 实时写入和更新 大规模分布式执行 ✓ 半结构化、大字段 ✓ 600+ 万记录/秒 写入 Autonomous Optimizer (JSON/ARRAY等) ✓ 10000+ QPS

28. AnalyticDB-典型场景 Dataworks APP 100亿/天 1000+ QPS 13000+ DataV Dataworks 表数目 120万+ 条/秒 600万/秒 峰值写入 QuickBI 70T+ 总数据量 Dataworks 50+ QPS DTS Kettle 10张以上百亿大表Join 10+ Sharding Cluster 百亿大表 AnalyticDB …. Join数量 5000+ QPS 明细查询 任意纬度 DTS 某专有云客户 筛选 10亿/天 200+ node / 5PB Oracle RAC 10+ App 价值关键词 平台统一 性能大幅提升 分析实时化 兼容性不错 无需维护离线在线混合复杂架构 提升3-10x T+1  实时 迁移和接入比较快

29. Data Lake Analytics - 全域数据,全局开放分析 无服务器化、扩容能力极强,助力分析极低成本  智能的存储感知和分层缓存设计 存储0预留成本  智能的资源弹性调度和计算引擎感知 支持快速扩容至2000 worker 计算0预留成本 丰富的生态兼容 统一元数据,双计算引擎按需切换  全面兼容MySQL 生态  极速分析引擎XIHE TPC-H、TPC-DS 领先 3x (BI / ETL / 可视化 / 编程语言)  Spark引擎 支持共享内存加速 2x (On-going)  全面兼容Spark生态 (GraphX/Streaming/ML/SparkR) 智能探测,开箱即用 无需迁移即可统一分析全域数据  Metadata 自动识别  RDMS 5+ (MySQL/Oracle/…) 15+  SQL查询时动态生成Metadata  Hadoop 4+ (ORC/Parquet/…) 数据源  智能查询下推  NoSQL 3+ (MongoDB/…)  OSS/DBS/SLS/...

阿里云栖开发者沙龙是“云栖社区”主办的线下技术沙龙品牌,希望通过技术干货分享来打通线上线下专家和开发者的连接。
关注他