申请试用
HOT
登录
注册
 
Spark 大数据处理最佳实践
0 点赞
1 收藏
8下载
Apache Spark中国技术交流社区
/
发布于
/
271
人观看

Spark 大家应该都很熟了,我们这次的 Spark 最佳实践课程不会生搬硬套去讲一些你能在网上找得到的东西。而是讲师基于自己多年的经验总结出来的一些关于Spark或者是大数据方面一些原则性的东西,一些非常落地的最佳实践,主要的目标是让你为摆脱Spark小白用户的称号。

张维夏.png
章剑锋(简锋)- 阿里云 EMR 数据开发平台负责人

展开查看详情

1. Spark 大数据处理 最佳实践 章剑锋(简锋) 阿里云 开源大数据平台 EMR-Studio Leader

2.Jeff Zhang

3.目录 大数据概览 如何摆脱技术小白 目录 Spark SQL 学习框架 EMR Studio 上的 大数据最佳实践

4.大数据概览 • 大数据处理 ETL (Data  Data) • 大数据分析 BI (Data  Dashboard) • 机器学习 AI (Data  Model)

5.如何摆脱技术小白

6.如何摆脱技术小白 • 只懂表面,不懂本质。 • 只懂得参考别人的Spark代码,不懂得Spark的内在机制,不懂得如何 调优Spark Job 摆脱技术小白药方: • 懂得运行机制 • 如何配置 • 如何看Log

7.Spark SQL Architecture

8.如何配置 Spark App • 配置 Driver • spark.driver.memory • spark.driver.cores • 配置 Executor • spark.executor.memory • spark.executor.cores • 配置 Runtime • spark.files • spark.jars • 配置 DAE • … https://spark.apache.org/docs/latest/configuration.html

9.Spark Log

10.Spark SQL 学习框架 ( 结合图形/几何) • Select Rows • Select Columns • Transform Column • Group By • Join

11.Select Rows

12.Select Columns

13.Transform Column

14.Group By / Aggregation

15.Join

16.Spark SQL 执行计划 • Where • Group by • Order by

17.Spark SQL - Where

18.Spark SQL - Group By

19.Spark SQL - Order by

20.EMR Studio 实践

21.EMR Studio 特性 • 兼容开源组件 • 支持连接多个集群 • 适配多个计算引擎 • 通过界面化的方式进行交互式开发和作业调度 • 适用多种大数据应用场景 • 计算存储分离

22.兼容开源组件 EMR Studio 在开源软件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基础上优化了做了 优化和增强。

23.支持连接多个集群 一个 EMR Studio 可以连接多个EMR计算集群,您可 以很方便地切换计算集群,提交作业到不同的计算集 群上运行。

24.适配多个计算引擎 自动适配Hive、Spark、Flink、Presto、Impala和Shell 等多个计算引擎,无需复杂 配置,多个计算引擎间协同工作

25.交互式开发 + 作业调度无缝衔接 Notebook + Airflow: 无缝衔接开发环节和生产调度环节 • 利用交互式开发模式可以快速验证作业的正确性。 • 在Airflow里调度Notebook作业,最大程度得保证开发环境和生产环境的一致性,防 止由于开发阶段和生产阶段环境不一致而导致的问题。

26.计算存储分离 • 所有数据都保存在OOS上,包括: • 用户Notebook代码 • 调度作业Log • 即使集群销毁,也可以重建 集群轻松恢复数据

27.适用多种大数据应用场景 • 大数据处理 ETL • 交互式数据分析 • 机器学习 • 实时计算

28. Demo https://help.aliyun.com/document_detail/208107.html?spm=a2c4g.11186623.6.845.6cfc24577t1RbI

29.

0 点赞
1 收藏
8下载