阿里巴巴 路璐 - 《万台集群性能优化方法&MaxCompute性能优化实践》_部分1

大数据计算服务(MaxCompute)是一种快速、完全托管的PB/EB级数据仓库解决方案,MaxCompute具备万台服务器扩展能力和跨地域容灾能力,是阿里巴巴内部核心大数据平台,承担了集团内部绝大多数的计算任务,支撑每日百万级作业规模。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
展开查看详情

1.MaxCompute性能优化实践 阿里巴巴集团-计算平台事业部 路璐

2.MaxCompute/ODPS -- 阿里巴巴和阿里云大数据的旗舰计算平台 BigBench 2.5X 60K+/10+ 250% X 50套+ 99%存储 + 95%计算 阿里巴巴内部统一的 超大规模 大数据旗舰平台 作为大数据旗舰平台 高性能,低成本 大数据平台,支持阿里所有业务 跨DC调度容灾能力 公共云支撑上层”大脑”和数加 专有云部署到各行各业 Alibaba Group,Copy Right Reserved。

3.阿里云大数据计算服务(MaxCompute/ODPS) 淘宝 阿里妈妈 高德 聚划算 合一 客满 UC … … 应用层 天猫 B2B 蚂蚁金服 菜鸟网络 … … 搜索 安全部 API Gateway 数据服务 ASR NLP 智能大脑 DataV 数据可视 Image/Video Analysis 机器翻译 语音识别 化 TTS OCR DW Suite (D2/Base) 开发套件 数据管理 开发套件 流水线管理 数据总线(DataHub) 大数据计算平台 人工智能 计算平台 基于Pub/Sub的数据 MaxCompute/ODPS PAI … 同步服务 Alibaba Group,Copy Right Reserved。

4.大数据计算 典型场景分析(从计算量和延迟的角度) Alibaba Group,Copy Right Reserved。

5.大数据计算 典型场景分析(从计算量和延迟的角度) • 关键基线作业为主(20%) • 数据处理量大(80%) • 资源消耗多(80%) • 数据依赖多样 =》提升性能/效率是关键 • 开发/BI作业为主 • 作业量大(80%) => 开发效率+实时化是关键 Alibaba Group,Copy Right Reserved。

6. MaxCompute 2.0 架构持续升级 多种工具 Studio DataWorks 开发套件 统一的开发环境 支持 批处理 交互 内存计算 迭代计算 支持多种运算模式 新一代大数据语言 结合imperative 与 Declarative优势 New SQL Python Java 覆盖主流语言 编译器 优化器 基于代价和历史运行信息的优化 WholeStage CodeGen 全异步IO 运行时 Bubble Based Scheduling 元数据管理,资源调度 ,任务调度 与生态系统的联动能力 Cache 缓存 Index支持 AliORC,与原生ORC兼容 分层存储(SSD,SATA,EC) 数据存储 Alibaba Group,Copy Right Reserved。

7. MaxCompute 2.0 架构优化——HBO HBO(History-Based Optimization)是基于任务执行历史的优化方式。 任务执行历史 + 集群状态信息 + 优化规则 -> 更优的执行配置 提升效率 节约成本 优化措施 优化效果 效果体现 多维度 基于大数据分析 Alibaba Group,Copy Right Reserved。

8. MaxCompute 2.0 架构优化——runtime行转 列 按行读取 SIMD Cache 并行化 转变 Miss 按列读取 •SSE/AVX系列指令 •LLVM codegen Alibaba Group,Copy Right Reserved。

9. MaxCompute 2.0 架构优化——python udf Python占比太高 • 核心python package编译成c++ .so lib • JIT优化 • C++函数指针级别原生调用python • 轻量级语言安全沙箱 PyPy Alibaba Group,Copy Right Reserved。

10. MaxCompute 性能优化——profiling工具(单机篇 ) Memory CPU 提高效率 解决瓶颈 IO 关键资 源 Alibaba Group,Copy Right Reserved。

11. MaxCompute 性能优化——profiling工具(单机篇 ) 分析热点 Memory 优化算法 CPU 微架构优化 CPU IO合并 顺序化 内存Cache NUMA 顺序访问 提高效率 解决瓶颈 地址对齐 内存 优化 IO 网络 压缩 IO 关键资 DPDK 源 Alibaba Group,Copy Right Reserved。

12. MaxCompute 性能优化——profiling工具(单机 篇) 分析热点 Memory 优化算法 CPU 微架构优化 CPU IO合并 顺序化 内存Cache NUMA 顺序访问 提高效率 解决瓶颈 地址对齐 内存 优化 IO 网络 压缩 IO 关键资 DPDK 源 profiling工具:vtune、perf Alibaba Group,Copy Right Reserved。

13.MaxCompute 性能优化——profiling(案例分析 ) 虚函数 Alibaba Group,Copy Right Reserved。

14. MaxCompute 性能优化——profiling工具(集群篇 ) 传统Profiling工具 大型分布式系统 单台机器级 数万台机器 单个进程或者线程 数百万进程 传统profiling工具无法进行job级别 或者集群级别性能分析 Alibaba Group,Copy Right Reserved。

15. MaxCompute 性能优化——profiling工具(集群篇 ) 扁鹊系统 •基于云的全站性能分析系统 – 基于阿里云的多种云服务 – 全站数据收集、存储、分析、 可视化 – 对目标系统完全无侵入, 无干扰 – 性能稳定,开销小 • 与Intel深入合作 ‒ CPU Profiling、性能优化 • 集群性能分析 – 热点代码分析 – 内存使用分析 • 故障诊断 – Root Cause, 自动、实时诊断 Alibaba Group,Copy Right Reserved。