Spark 原理与实践

下载 53

青色的海牛

发布于

5923

人观看

#信息技术

Spark 原理与实践

展开查看详情

1 .Spark 原理与实践

2 .提纲 1 Spark 简介 2 Spark 功能与架构 3 Spark 生态圈介绍 4 Spark 编程

3 .是什么 Spark 系统是分布式批处理系统和分析挖掘引擎； AMP LAB 贡献到 Apache 社区的开源项目，是 AMP 大数据栈的基础组件；做什么数据处理（ Data Processing ）：可以用来快速处理数据，兼具容错性和可扩展性。迭代计算（ Iterative Computation ）：支持迭代计算，有效应对多步的数据处理逻辑。数据挖掘（ Data Mining ）：在海量数据基础上进行复杂的挖掘分析，可支持各种数据挖掘和机器学习算法。 Spark 简介

4 .轻： Spark 核心代码有 3 万行。 Scala 语言的简洁和丰富表达力巧妙利用了 Hadoop 和 Mesos 的基础设施快： Spark 对小数据集可达到亚秒级的延迟，对大数据集的迭代机器学习、即席查询、图计算等应用， Spark 版本比基于 MR 、 Hive 和 Pregel 的实现快。内存计算、数据本地性和传输优化、调度优化灵： Spark 提供了不同层面的灵活性。 Scala trait 动态混入策略（如可更换的集群调度器、序列化库）；允许扩展新的数据算子、新的数据源、新的 language bindings （ Java 和 Python ）； Spark 支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。巧：巧妙借力现有大数据组件。 Spark 借 Hadoop 之势，与 Hadoop 无缝结合； Shark 借了 Hive 的势； Spark 特点

5 .Hadoop (MapReduce) 极大的简化了大数据分析，广泛地用作大规模的数据分析。但是，随着大数据需求和使用模式的扩大，用户的需求也越来越多：更复杂的多重处理需求（比如迭代计算 , ML, Graph ）低延迟的交互式查询需求（比如 ad-hoc query ） MapReduce 作业结果需要到固化到硬盘上，由此产生数据备份、磁盘 I/O 和序列化等操作产生了大量的开销，也由于这一缺点， MapReduce 计算模型的架构不适合于上述场景当年 MapReduce 框架设计的目的为整合廉价的商用计算机的计算能力而设计的，但随着近 10 年来硬件的快速发展，硬件成本的降低，内存容量和 CPU 速度已经不再成为问题，内存计算的时代已经到来为什么需要内存计算？

6 .一种解决思路 MapReduce Impala Pregel Dremel GraphLab Storm Giraph Drill Tez S4 批处理系统实时计算，流处理，图计算框架 BSP

7 . 不是一款修改过的 Hadoop ！是一款独立的，高速的，开源的分布式计算引擎： >> 内存计算模式 >> Resilient Distributed Datasets( 弹性分布式数据集 ) >> 比 Hadoop 快 40 倍以上另一种解决思路

8 .Spark 与其他框架对比

9 .Spark 目的

10 .Spark 目的

11 .Spark 数据共享机制（ 1/2 ） iter . 1 iter . 2 . . . Input HDFS read HDFS write HDFS read HDFS write Input query 1 query 2 query 3 result 1 result 2 result 3 . . . HDFS read 太慢，冗余读写、序列化、磁盘 IO Data Sharing in MapReduce

12 .Spark 数据共享机制（ 2/2 ） Data Sharing in Spark 10-100x 快于网络和磁盘 iter . 1 iter . 2 . . . Input Distributed memory Input query 1 query 2 query 3 . . . one-time processing

13 .弹性分布式数据集（ Resilient Distributed Datasets ） A distributed memory abstraction that lets programmers perform in-memory computations on large clusters 只读的，可分区的分布式数据集只能直接通过操作符来创建和处理支持容错处理 RDD 操作： Transformation & Action Spark 核心概念 -- RDDs

14 .Transformation & Action RDD 操作

15 .每个 RDD 都有一些用来描述 RDD 的元数据信息：一组 RDD 分区 (partition) 信息每个 RDD 都会分成若干个分区，在为 RDD 分配 task 时，都是以分区为基本单位的。对父 RDD 的一组依赖，这些依赖描述了 RDD 的 Lineage 窄依赖 (Narrow Dependencies) ：子 RDD 的每一个分区依赖于常数个父 RDD 的分区宽依赖 (Wide Dependencies) ：子 RDD 的分区依赖于父 RDD 的所有分区 Spark RDDs

16 .流水线操作窄依赖允许在一个集群节点上以流水线的方式（ pipeline ）计算所有父分区。例如，逐个元素地执行 map 、然后 filter 操作宽依赖则需要首先计算好所有父分区数据，然后在节点之间进行数据混合，这与 MapReduce 类似。容错机制的处理窄依赖能够更有效地进行失效节点的恢复，即只需重新计算丢失 RDD 分区的父分区，而且不同节点之间可以并行计算对于一个宽依赖关系的 Lineage ，单个节点失效可能导致这个 RDD 的所有祖先丢失部分分区，因而需要整体重新计算。窄依赖与宽依赖的区别

17 .Spark 容错机制 iter . 1 iter . 2 . . . Input Distributed memory Input query 1 query 2 query 3 . . . one-time processing 快的同时，也要保证系统鲁棒性

18 .血统关系 (Lineage) ：记录 RDD 是如何从其它 RDD 中演变过来的一系列操作当这个 RDD 的部分分区数据丢失时，它可以通过 Lineage 获取足够的信息来重新运算和恢复丢失的数据分区采用粗颗粒的数据模型，性能的提升 Spark 容错机制

19 .Spark 例子 lines = spark.textFile(“hdfs ://...”) errors = lines. filter ( _.startsWith(“ERROR ”) ) cachedMsgs = errors . cache () Block 1 Block 2 Block 3 Worker Worker Worker Driver cachedMsgs. filter ( _.contains(“M ySQL ”) ). count cachedMsgs. filter ( _.contains(“HDFS”) ). count . . . tasks results Cache 1 Cache 2 Cache 3 Base RDD Transformed RDD Action Result: full-text search of Wikipedia in <1 sec ( vs 20 sec for on-disk data) Result: scaled to 1 TB data in 5-7 sec ( vs 170 sec for on-disk data) 例子：假定有一个大型网站出错，操作员想要检查 Hadoop 文件系统（ HDFS ）中的日志文件（ TB 级大小）来找出原因。通过使用 Spark ，操作员只需将日志中的错误信息装载到一组节点的 RAM 中，然后执行交互式查询。

20 .Spark 任务调度 (1/2) RDD Objects DAGScheduler TaskScheduler Worker rdd1. join (rdd2) . groupBy (…) . filter (…) build operator DAG split graph into stages of tasks submit each stage as ready launch tasks via cluster manager retry failed or straggling tasks execute tasks store and serve blocks DAG TaskSet Cluster manager Block manager Threads Task

21 .按窄依赖划分 Stage 依据分区来划分 Join 操作重用依据缓存的数据 Spark 任务调度 (2/2) join union groupBy map Stage 3 Stage 1 Stage 2 A: B: C: D: E: F: G: = previously computed partition Task

22 .按窄依赖划分 Stage 依据分区来划分 Join 操作重用依据缓存的数据 Spark 任务调度 (2/2) join union groupBy map Stage 3 Stage 1 Stage 2 A: B: C: D: E: F: G: = previously computed partition Task

23 .Spark 生态圈

24 .统一集群资源管理系统 , 支持多种计算框架共享集群 , eg Hadoop , MPI 通过共享集群资源和数据，提高资源利用率和数据共享率目前最大部署集群为 3500+ 节点 Spark 生态圈之 Mesos

25 .支持大规模流式计算，吞吐量高于 Storm 基于 Spark 单一框架，完善 Spark 批处理、交互式处理和流式处理模式将流式计算分解成一系列小而确定的批处理作业 Spark 生态圈之 Spark Streaming

26 .Hive on Spark, 提供 SQL 访问 Spark 内的 RDDs 比 Hive 性能高 40-100 倍 SparkSQL 抛弃 Hive, 直接 SQL on Spark Shark 项目已经停止，目前是单独的 SparkSQL ， Hive 现在在做 Hive on Spark Spark 生态圈之 SparkSQL (Shark)

27 .大规模的模糊查询引擎允许用户在准确率和响应时间作出权衡主要是 facebook 在使用和维护，最新消息 BlinkDB 加入 Databricks Spark 生态圈之 BlinkDB

28 .快速的图计算框架，性能优于 Giraph 和 GraphLab 提供 GraphLib 和 API Spark 生态圈之 GraphX

29 .基于 Spark 的机器学习算法包支持可扩展的机器学习算法 Spark 生态圈之 MLBase ( MLlib )

13点赞

9收藏

53下载