- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
EMRonACk产品介绍
EMR on ACK是企业级半托管的开源大数据平台,为阿里云E-MapReduce(EMR)提供了一个部署选项,允许您在阿里云容器服务Kubernetes版 (ACK) 上运行开源大数据框架。 目前支持Spark引擎的部署,结合自研的Remote shuffle service服务组件,提供用户高稳定、高性价比、灵活的弹性计算服务。
本次直播将重点展开该产品介绍和使用演示。
讲师介绍
石磊(砳岩) 阿里云技术专家,计算平台事业部-EMR-开发
展开查看详情
1 .阿里大数据云原生化实践 EMR Spark on ACK产品介绍 石磊 阿里云EMR团队技术专家 2021/05/28
2 .目录 云原生化挑战及阿里实践 目录 Spark容器化方案 产品介绍和演示
3 .云原生化挑战及阿里实践
4 .大数据技术发展趋势 • 统一运维入口,统一运维工具链,统一监控体系 运维的统一 • 以集群为中心->以作业为中心 模式的转变 • 多版本支持,可以同时跑Spark2.x、Spark3.x;新版本、新特性迅速上线,对A/B test极为友好 扩展的提升 • Java服务、AI、大数据统一接入ACK集群,错峰调度,离线在线混部,提升机器利用率 利用率的提升 • 大数据(数据湖)技术架构升级,存储与计算分离,向云原生演进 架构的升级
5 .云原生化面临挑战 计算与存储分离 shuffle存算分离 如何构建以对象存储为 如何解决ACK混合异构 底座的HCFS文件系统 机型 • 完全兼容现有的HDFS • 异构机型没有本地盘 • 性能对标HDFS,成本降低 • 社区[Spark-25299]讨论,支 持Spark动态资源,成为业界 共识 缓存方案 ACK调度 其他 如何有效支持跨机房、 如何解决调度性能瓶颈 • 错峰调度 跨专线混合云 • 性能对标Yarn • Yarn on ACK节点资源相互感 • 需要在容器内支持缓存系统 • 多级队列管理 知
6 .阿里实践-EMR on ACK Remote Shuffle Service提供中间shuffle数据的存储计算分离方案 可以使计算节点无需本地盘和云盘 支持打开Spark动态资源功能,Spark-25299终极方案 Fluid+JindoFS针对OSS存储提供湖加速解决方案,支持Block和Cache两种模式 Block模式1TB TPCDS场景下有15%以上的性能提升 调度层面支持Scheduler Framework V2 调度性能提升 提供多级队列管理 引擎能力增强 10TB TPCDS Benchmark场景下,EMR Spark比社区有3x性能提升 Hudi、DeltaLake比社区功能性能增强 完整的错峰调度方案 Yarn on ACK节点资源变化相互感知
7 .整体方案介绍 • 通过数据开发集群/调度平台提交到不 同的执行平台 • 错峰调度,根据业务高峰低峰策略调 整 • 云原生数据湖架构,ACK弹性扩缩容能 力强 • 通过专线,云上云下混合调度 • ACK管理异构机型集群,灵活性好
8 .Spark容器化方案
9 .方案介绍 ACK+Serverless ECI RSS集群部署在ACK中 异构机型最佳实践
10 .RSS Q&A • 为什么需要Remote Shuffle Service? • RSS使得Spark作业不需要Executor Pod挂载云盘。挂载云盘非常不利于扩展性和大规模的 生产实践。 • 云盘的大小无法事前确定,大了浪费空间,小了Shuffle会失败。RSS专门为存储计算分离 场景设计。 • Executor将shuffle数据写入了RSS系统,RSS系统来负责管理shuffle数据,Executor空闲 后即可以回收。[SPARK-25299] • 可以完美支持动态资源,避免数据倾斜的长尾任务拖住Executor资源不能释放。 • RSS性能如何,成本如何,扩展性如何? • RSS对于shuffle有很深的优化,专门为存储与计算分离场景、K8s弹性场景而设计。 • 针对Shuffle fetch阶段,可以将reduce阶段的随机读变为顺序读,大大提升了作业的稳定 性和性能。 • 可以直接利用原有K8s集群中的磁盘进行部署,不需要加多余的云盘来进行shuffle。性价比 非常高,部署方式灵活。
11 .Spark Shuffle • 产生 numMapper * numReducer 个 block • 顺序写、随机读 • 写时 Spill • 单副本,丢数据需 stage 重算
12 .EMR Remote Shuffle Service • 追加写、顺序读 • 无写时 Spill • 两副本;副本复制到内存后即完成 • 副本之间通过内网备份,无需公网带宽
13 .RSS TeraSort Benchmark 备注说明:以10T Terasort为例,shuffle量压缩后大约5.6T。可以看出该量级的作业在 RSS场景下,由于shuffle read变为顺序读,性能会有大幅提升。
14 .Spark on ECI效果 Spark集群当前选定 弹性ECI,使用ECI 一个100个节点的集 时间段:高峰期凌 群进行固定ACK+弹 晨2点(ETL任务抽 性ECI的模式进行稳 取结束)到早上6点 定性效果验证,考 (预留两个小时补 虑到按量库存,比 救时间) 较保守 包月固定集群规模: 包月固定集群规模: 100台Spark 50台Spark 64c 256 64c 256 按照高峰期64c 256g*50成本核算,平均成本降低约35%~40%(原先节 点包年包月,小规格实例按量更便宜),之前ACK采用的是64c 256g节 点,在新的弹性ECI模式下,部分任务用户采用多executor单task代替 单个executor多个task的方式,整体性能平均提升10%~20%。
15 .Summary 技术实现 运维管理 • 存储计算分离 • 统一运维入口 • Remote shuffle service • 异构机型,降低成本 • 弹性计算资源 • 错峰调度模型
16 .产品介绍和演示