从大数据到Spark的数据处理,详细介绍了spark在大数据结构中的层级关系及使用,并列举了相关案例对其加以分析。介绍了阿里云的架构

注脚

1.Spark Spark ( ) liwei.li@alibaba-inc.com

2.• • Spark • • Spark •

3.

4.• • -> Spark • • -> HBase • • -> HDFS/ • • …… • • •

5. MapReduce(Hadoop) TEZ Spark map shuffle DAG RDD(DAG )+Cache Stage shuffle SQL Dataset struct API( ) Mapper Reducer DAG Vertex Edge streaming MLlib GraphX java SQL( HIVE) java SQL( HIVE) SQL scala java python R HBase MongoDB Datastax SQLServer Spark

6.Why Spark ( ) MLlib SQL Streaming GraphX Spark Core API Spark Core API SQL Python Scala Java R • query Cache Spark Hadoop 100 • Spark SQL • SQL Python Scala Java R • Kafka HBase Cassandra MongoDB Redis MYSQL SQL Server

7.Why Spark ( ) https://spark-packages.org/?q=tags%3A%22Data%20Sources%22

8.Spark

9. HBase+Spark 90% • Spark Streaming ETL HBase/Phoenix • HBase/Phoenix • HBase/Phoenix Spark SQL

10.• kafka Streaming • Spark Streaming Kafka ETL HBase/Phoenix • Spark Streaming HBase/Phoenix • LogService MongoDB MYSQL

11.• HBase RDS T ( ) Spark Parquet • Spark • Kafka HBase RDS MongoDB

12. ( ) • Spark Streaming MLlib • • Kafka HBase RDS MongoDB

13.• : HBase RDS MongoDB • Spark Cache Spark • Cache Cache Spark

14.

15.• (1) Kafka • (2) ETL Spark streaming Kafka ETL HBase/Phoenix HBase/Phoenix • (3) Spark SQL HBase/Phoenix HBase/Phoenix • (4) BI JDBC HBase/Phoenix

16.

17.Spark

18.Spark 1 2 Spark Spark Streaming https://github.com/jaceklaskowski/spark-structured-streaming-book https://github.com/lw-lin/CoolplaySpark Spark Core https://github.com/JerryLead/SparkInternals Spark SQL https://github.com/jaceklaskowski/mastering-spark-sql-book Spark MLlib https://github.com/endymecy/spark-ml-source-analysis 3 
 https://yq.aliyun.com/teams/382?spm=a2c4e.11153940.0.0.4f4c6d3dCRQqzB submit )

19.

20. + HBase RDS SQL Streaming MLib GraphX MongoDB Spark Redis (Meta+OSS) (ECS) HBase Spark • ( ) “SQL ThriftServer” “ LivyServer” Spark • (0 ) SLA Spark • ( ) Spark HBase SQL Join HBase • ( ) Spark

21.- 1 link https://dwz.cn/Fvqv066s - 2 ( ):

22.

user picture
  • 蓝色的海牛
  • 一个幽灵,共产主义的幽灵,在欧洲大陆徘徊。

相关Slides

  • 讲解了Facebook在spark shuffle方面的优化,相关论文为 EuroSys ’18: Riffle: Optimized Shuffle Service for Large-Scale Data Analytics

  • Hive作为数据仓库的核心,其元数据管理已经成为大数据领域事实上的标准,各种大数据处理引擎都尝试对其兼容,本文描述社区如何讲Hive服务以及Hive MetaStore服务独立处理,并支持各种权限验证功能。

  • Spark 流式有两套系统:Spark Streaming 和 Structured Streaming。那么这两套系统的区别在哪里呢?以及为什么 Spark 有了 Spark Streaming 还有做 Structured Streaming 呢?我们应该如何去选择呢?

  • MLSQL的文档自助系统 更多信息访问官网: http://www.mlsql.tech