AnalyticDB for MySQL:PB级云数仓 核心技术和场景解析

AnalyticDB for MySQL:PB级云数仓 核心技术和场景解析
BigData已是昨日黄花,FastData才是未来
AnalyticDB for MySQL介绍:PB级实时数据仓库
AnalyticDB核心技术: 分层存储+存储计算分离架构 带来极致弹性和开放性
……

展开查看详情

1.南仙 阿里云智能高级技术专家

2.AnalyticDB for MySQL:PB级云数仓 核心技术和场景解析 潘岳(南仙)

3. BigData已是昨日黄花,FastData才是未来 Realtime Data Fast Full + Realtime Data Online Computing Large-scale(On demand) Data Lake 股价41% ↓ 寻求买家… AnalyticDB TSDB Analytics

4. AnalyticDB for MySQL介绍:PB级实时数据仓库 世界级认可 极致性价比驱动数据价值在线化  千亿 / 万亿 多表关联分析 毫秒级  异构加速的MPP+DAG 融合分布式执行引擎 10X 1st  存储计算分离架构,智能化行列混存实现极速检索 vs Spark 兼容 & 超越 MySQL 云原生 实时按需极致弹性  全面兼容MySQL生态 ✓ 存储从GB至100PB  ANSI SQL:2013 复杂分析支持 ✓ 计算节点从3台到2000台 TPC-DS性能全球第一 ✓ 混合负载 非结构化与结构化融合分析 完备的企业级特性 ✓ 全面支持非结构化数据的存储、检索、碰撞 ✓ 备份/恢复/Flashback/回收站 比对、融合分析 ✓ 审计/白名单/自建账号/VPC ✓ 5+ 向量数据类型,5+向量检索算法 ✓ 跨AZ/跨Region(On-going)

5.AnalyticDB核心技术: 分层存储+存储计算分离架构 带来极致弹性和开放性

6. AnalyticDB核心技术-智能的“行列混存+全索引”带来极致性能 SELECT ... WHERE ( NAME='Bob' UNION Row Ids {1,2,3,7} AND SEX !='female' AND (CITY = 'Hangzhou' {1,3} OR CITY = 'Shanghai'))  明细查询的所有列 OR 兼备 INTERSECT {1,2,7} (JSON_EXTACT(ATTR,'time') >0  多维分析的列裁剪和压缩 OR ANN(VEC, [1,1,1,1], 2)) {1,2,3,4} {1,3} INTERSECT UNION UNION {1,3} {1,3,5,7,9} {2,7} {2,3} {1,4} {1,2} NAME: SEX: CITY: CITY: JSON_EXTACT ANN bob NOT female hangzhou shanghai “NAME” “SEX” “CITY” JSON/Vector index Inverted index Bitmap index Dictionary 任意条件组合过滤检索 大幅筛选候选集

7. AnalyticDB核心技术:一个系统一套存储兼顾多种场景 多维分析 ✓任意列Join ✓复杂长计算任务、ETL 行列混存 (Hybrid Store) 行列混存、Block过滤 智能全索引 混合负载管理 (Hybrid Workload) CPU/Mem/Net/IO 高并发低延迟 / 复杂ETL 明细查询 融合计算引擎 (Hybrid MPP+DAG) 实时查询和写入 ✓1000+ 列 超宽表 ✓实时写入和更新 大规模分布式执行 Autonomous Optimizer ✓半结构化、大字段 ✓600+ 万记录/秒 写入 (JSON/ARRAY等) ✓10000+ QPS

8. AnalyticDB for MySQL:典型场景和客户价值 1000+ QPS Dataworks APP 100亿/天 10000+ DataV Dataworks 表数目 120万+ 条/秒 600万/秒 峰值写入 QuickBI 100T+ 数据量 Dataworks 50+ QPS DTS Kettle 10张以上百亿大表Join 10+ MySQL Sharding 百亿大表 AnalyticDB …. Join数量 5000+ QPS 明细查询 任意纬度 DTS 某云客户 筛选 10亿/天 200+ node / 5PB Oracle RAC 10+ App 价值关键词 平台统一 性能大幅提升 分析实时化 兼容性不错 无需维护离线在线混合复杂架构 提升3-10x T+1  实时 迁移和接入比较快

9. Data Lake Analytics:全域数据、开放分析 无服务器化,扩容能力极强,立即可用的极低成本数仓  智能的存储感知和分层缓存设计 0预留存储成本  智能的资源弹性调度和计算引擎感知设计 支持快速扩容至2000 worker , 0预留计算成本 丰富的生态兼容 统一元数据,双计算引擎按需切换  全面兼容MySQL 生态 ✓ 极速分析引擎XIHE TPC-H、TPC-DS 领先 3x (BI / ETL / 可视化 / 编程语言)  全面兼容Spark生态 ✓ Spark引擎 支持分布式内存池加速 2x (On-going) (GraphX/Streaming/ML/SparkR) 智能探测,开箱即用 无需迁移即可统一分析全域数据 ✓ Metadata 自动识别 ✓ RDMS 5+ (MySQL/Oracle/…) ✓ SQL查询时动态生成Metadata ✓ Hadoop 4+ (ORC/Parquet/…) NoSQL 3+ (MongoDB/…) 15+ ✓ 智能查询下推 ✓ 数据源 ✓ OSS/DBS/SLS/...

10. Data Lake Analytics:全域数据、全局开放分析 RDBMS APP Frontnode MySQL / Spark Compatibility NoSQL Optimizer Unify (CBO/HBO/RBO + AI Empowered) Security Manager Hadoop Presto 极致优化版 Spark Parquet/ORC/.. 20x 性能提升 GraphX/ML/Streaming/… Dataworks Unify File Metadata OSS/DBS/Logs/.. Serverless Resource Manager Manager ECS | K8S (FPGA / GPU Powered) Streaming Kafka/IoT/…. …. 价值关键词 统一数据视图 实时化 业务接入极快 建仓成本极低 云上所有数据源组合分析查询 提升10~20x 兼容度高,一键自动建仓 无数据搬迁,按需付费

11.客户案例1:移动运营APP解决方案

12.客户案例2:物流行业实时数仓

13. AnalyticDB for MySQL:客户遍布各行各业 泛 新 互 零 联 售 网 极快 高兼容 多场景 数 字 金 政 融 府

14.AnalyticDB for MySQL 3.0版本:下一代云原生OLAP产品 更易用 更高性能  支持最多256个DB ✓实时写入性能 1.5x  兼容性大幅提升(99.99%) ✓查询性能提升 40%  数据写入立即可见 ✓批量导入 TB/小时 更弹性 更可靠 ✓磁盘空间弹性伸缩 ✓ 完备的权限体系 ✓节点数目任意库缩容 ✓ 数据三副本工业安全 ✓计算节点弹性扩展(On-Going) ✓ 完备的备份恢复能力 当前火热公测中,将于7.31商业化,欢迎体验!

15. 扫码加入社群 与志同道合的码友一起 粘贴二维码 Code Up 阿里云开发者社区 阿里云数据库微信公众号

16.谢谢!

阿里云栖开发者沙龙是“云栖社区”主办的线下技术沙龙品牌,希望通过技术干货分享来打通线上线下专家和开发者的连接。
关注他