- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
GPDB on PowerFlex - 构建在超融合上的MPP大数据平台-李巍
GPDB on PowerFlex - 构建在超融合上的MPP大数据平台
话题大纲:
- Greenplum融合型数据仓库功能特点
- Greenplum流批一体化架构
- PowerFlex软件定义存储
- 构建在PowerFlex上为Greenplum带来的新能力
- 成功案例分享
展开查看详情
1 .Greenplum On PowerFlex -构建在超融合上的MPP大数据平台 李巍 资深平台架构师 © 2022 VMware, Inc.
2 .免责声明 本演示文稿可能包含当前正在开发的产品特性或功能。 本新技术概要介绍并不表示 VMware 承诺在任何正式推出的产品中提供这些功能特性。 产品的功能特性可能会有变更,因此不得在任何类型的合同、采购订单或销售协议中予以规定。 技术可行性和市场需求都可能影响最终提供的产品功能特性。 在本演示中讨论或展示的任何新特性/功能/技术的定价与包装都尚未确定。 © 2022 VMware, Inc. 2
3 .Agenda • Greenplum融合型数据仓库功能特点 • Greenplum流批一体化架构 • PowerFlex软件定义存储 • 构建在PowerFlex上为Greenplum带来的新能力 • 成功案例分享 © 2022 VMware, Inc. 3
4 .VMware Greenplum是什么? 基于X86开放式架构的高性能分析型数据仓库 高性能 & 易扩展 开放性 高级分析 支持TB~PB级的数据处理、存储和访问 基于开源的 Postgresql 研发 除了 SQL 分析能力外,内置了全文检索、机 器学习、深度学习、地理信息管理等多种分 在数据加载、处理、访问等各个环节最大化 业界基于X86工业标准的首个商用开源MPP 析能力 并行处理能力 支持物理机、虚拟机、公有云等多种部署方式 支持GIS地理空间数据分析能力 支持HTAP,优秀混合负载性能支持 不同方式迁移间100%兼容 内置R、Python、Graph图分析能力 增加节点可线性增加容量和计算性能 在线扩容,扩容期间系统继续对外提供服务 © 2022 VMware, Inc. 4
5 .Greenplum MPP无共享并行架构 SQL SQL 并行计算提供强大的数据处理性能 Master Standby 管理节点: Host Master 负责接收请求、优化查询计划、 Dispatch&协调数据节点并行计算 Interconnect组件负责节点间数据交互 Interconnect Interconnect 和连续化Pipelineing 数据处理 数据节点: - 拥有各自的 CPU, DISK 和 内存 (无共 享,最大化并行) - 存储用户数据、并行计算 - 提供HA镜像保护 … - 线性扩展 Segment 1 Segment 2 Segment 3 Segment N © 2022 VMware, Inc. 5
6 .VMware Greenplum 内置丰富分析功能的融合型数据仓库 基础数仓功能 “In-database”库内分析功能 企业级高阶功能 BI/Analytics 100 %SQL Python/R/ Machine/ Text Analytics Streaming Data Federated query Java/Perl/C functions Deep Learning Engine processing Traditional Columnar Structured / Time Series GeoSpatial Spark, NIFI, Advanced Monitoring Row Oriented Semi-Structured Kafka, JDBC/ODBC Connectors & Workload Management 100% Postgres Super Fast Data Querying Scalable Massive and Loading Compute Grid Image Multi-Platform Graph Recognition/OCR Software © 2022 VMware, Inc. 6
7 .VMware Greenplum Data Science Greenplum的企业数据分析平台典型架构-流批一体 Structured, Semi, Un-Structured Data ETL, Streaming ● Scale Out SQL, R, Python, Java,C... JSON , XML , Graph Data Scientists IoT Data Business Users Voice, Video, Image Data Analysts Geo Spatial , Time Series IT Professionals Data Sources And many more… BI/Analytic/ML ... End-Users Hadoop Data Lakes / Other Data Platforms / Public Cloud Data Data Ingestion Lakes / External Storages Data Visualization All Data Types © 2022 VMware, Inc. 7
8 .Greenplum灵活支持各种部署方式 同一个平台、不同的基础设施 Bare metal Public Virtual cloud env © 2022 VMware, Inc. 8
9 .PowerFlex 软件定义存储架构 PowerFlex C PowerFlex管理器 C 生命周期管理 S 性能线性扩展 S S 支持虚拟化或 S 快速数据重构 物理部署 99.9999% 极速性能 可扩展架构 计算和存储独自扩展 可用性 © 2022 VMware, Inc. 9
10 .PowerFlex-极速的运行平台 极速 I/O 吞吐能力 资源集成 无局部热点 自平衡架构 简化 负载区隔管理 CPU MEMORY STORAGE 百万级tps、亚秒级延迟、无受限的扩展能力 © 2022 VMware, Inc. 10
11 .PowerFlex 性能测试和线性扩展测试 35 31.6 30 25 • 随节点数增加,性能和容量 百万 线性增长 20 15.1 IOPS 15 12.1 系列1 7.9 系列2 • 可预测的近线性提升 10 6.3 4.4 3.4 5 0 1.7 0 20 40 60 80 100 120 140 # of nodes 900 767 > 6 Tbps ! 800 700 千 600 BW (MB/s) 500 389 400 系列1 300 系列2 196 200 102 117 100 60 0 31 0 20 40 60 80 100 120 140 # of nodes © 2022 VMware, Inc. 11 11
12 .PowerFlex节点故障快速自恢复(自愈/自平衡) 节点失败后的自愈耗时(分钟) 8 • 自修复、自平衡能力 22.5 #节点数 20 • 秒级或分钟级的数据修复 (传统架构是小时或天级别) 15 修复时间随节点数增加越来 越快 • 保证服务连续性 10 16 10.7 • 99.9999%可用性 5.6 5 32 3.1 2.0 64 128 0 0 20 40 60 80 100 120 140 #节点数 © 2022 VMware, Inc. 12 12
13 .PowerFlex-弹性可扩展高性能存储 -增强Greenplum架构灵活性-存算分离 Greenplum分布式数据库 • 2-Layer架构支持Greenplum计算资源和存储资源 计算节点 独立灵活扩展 ; • 线性扩展存储和IO性能、扩展过程中无延迟损耗 C C C C C C C C C C 计算资源 扩展 • PowerFlex提供资源负载区隔和分组容错保护 (物理机或VM ) S • 百万级的IOPS、上百GB数据吞吐能力、亚秒级的 S S S S S S S S S Vol 1 Vol 2 Vol 3 Vol 4 Vol 5 Vol 6 Vol 7 Vol 8 Vol 9 … 低延迟性能 PowerFlex • 灵活集成各类资源:Disk 、VNME、全闪存、GPU、 存储资源池 存储资源 高速网络、公有云、物理机… 扩展 © 2022 VMware, Inc. 13
14 . PowerFlex 一致性卷组快照 -增强Greenplum数据保护能力 • PowerFlex 一致性卷组Snapshot快照,可为Greenplum分布 式存储提供全局一致性时点数据快照; Greenplum分布式数据库 • 数据库快照为系统升级、数据维护时的快速回退提高安全 保障 Storage • PowerFlex的Schedule定期快照为系统快速备份、数据误 ● 快照恢复 删除等提供存储级的解决方案 ● 快照 • 快照未来还可用于从生产环境构建测试测试等场景 PowerFlex Snapshot © 2022 VMware, Inc. 14
15 .PowerFlex 异步数据复制 -增强Greenplum灾备能力 • PowerFlex 异步数据复制为Greenplum灾备提 Greenplum生产数据库 Greenplum灾备数据库 供存储级的解决方案; • RPO 低至15秒 Storage Storage PowerFlex asynchronous replication © 2022 VMware, Inc. 15
16 .VS “Point-in-time-recovery(PITR) “ © 2022 VMware, Inc. 16
17 . PowerFlex+Vsphere -构建Greenplum 无镜像( Mirrorless )部署模式 Compute Virtualization: vSphere Storage Virtualization: PowerFlex/vSAN/etc. Greenplum 有镜像架构 Greenplum 无镜像架构 “Greenplum’s 无镜像”架构优势 • 简化HA管理 • 失败自动恢复/迁移(磁盘故障、Segment故障、虚 机主机故障、物理主机故障) • 更高性能(无需wal日志复制和镜像写入) © 2022 VMware, Inc. • 更好的存储密度 17
18 .A Greenplum without Mirrors Benefits Cost Performance Manageability • Better storage density • Better loading performance • No need for gprecoverseg • Less resources needed for Mirrors • No resources used by Greenplum • Half the number of segments to for data duplication configure and maintain • More resources available for • A simpler gpinitsystem Primaries • No networking and IPs for mirrors © 2022 VMware, Inc. 18
19 . VMware Greenplum on PowerFlex 成功案例 Dell Digital © 2022 VMware, Inc.
20 .VMware Greenplum on PowerFlex 部署架构 © 2022 VMware, Inc. 20
21 .VMware Greenplum 关键性能指标 11+1计算节点 / 9+1 存储节点( Single rack build-out (22U) ) Dell Digital 产品测试 • 182个并行复杂查询同步运行(来自Dell Digital ) • 12分钟内完成 • 读带宽 40 GB/s • 写带宽 10 GB/s TPC-DS 测试 • 495个并发查询同步运行 Next: Move to 100Gbe and NVMe drives to achieve throughput needed Goal: Achieve 250GB/s throughput for 60/40 mix with a 400TB Database © 2022 VMware, Inc. 21
22 . 为Greenplum 带来的收益 Greenplum High Level Architecture • 简化管理、底层基础设施构建的标准化 • 计算和存储的独立灵活扩展 • 极高的IO吞吐性能 • Snapshot、DR等增强的数据管理能力 • 提高业务持续稳定运行能力 © 2022 VMware, Inc. 22
23 . 谢谢! © 2022 VMware, Inc. 23