申请试用
HOT
登录
注册
 
Spark 大数据处理最佳实践
Apache Spark中国技术交流社区
/
发布于
/
625
人观看

Spark 大家应该都很熟了,我们这次的 Spark 最佳实践课程不会生搬硬套去讲一些你能在网上找得到的东西。而是讲师基于自己多年的经验总结出来的一些关于Spark或者是大数据方面一些原则性的东西,一些非常落地的最佳实践,主要的目标是让你为摆脱Spark小白用户的称号。

张维夏.png
章剑锋(简锋)- 阿里云 EMR 数据开发平台负责人

展开查看详情

1 . Spark 大数据处理 最佳实践 章剑锋(简锋) 阿里云 开源大数据平台 EMR-Studio Leader

2 .Jeff Zhang

3 .目录 大数据概览 如何摆脱技术小白 目录 Spark SQL 学习框架 EMR Studio 上的 大数据最佳实践

4 .大数据概览 • 大数据处理 ETL (Data  Data) • 大数据分析 BI (Data  Dashboard) • 机器学习 AI (Data  Model)

5 .如何摆脱技术小白

6 .如何摆脱技术小白 • 只懂表面,不懂本质。 • 只懂得参考别人的Spark代码,不懂得Spark的内在机制,不懂得如何 调优Spark Job 摆脱技术小白药方: • 懂得运行机制 • 如何配置 • 如何看Log

7 .Spark SQL Architecture

8 .如何配置 Spark App • 配置 Driver • spark.driver.memory • spark.driver.cores • 配置 Executor • spark.executor.memory • spark.executor.cores • 配置 Runtime • spark.files • spark.jars • 配置 DAE • … https://spark.apache.org/docs/latest/configuration.html

9 .Spark Log

10 .Spark SQL 学习框架 ( 结合图形/几何) • Select Rows • Select Columns • Transform Column • Group By • Join

11 .Select Rows

12 .Select Columns

13 .Transform Column

14 .Group By / Aggregation

15 .Join

16 .Spark SQL 执行计划 • Where • Group by • Order by

17 .Spark SQL - Where

18 .Spark SQL - Group By

19 .Spark SQL - Order by

20 .EMR Studio 实践

21 .EMR Studio 特性 • 兼容开源组件 • 支持连接多个集群 • 适配多个计算引擎 • 通过界面化的方式进行交互式开发和作业调度 • 适用多种大数据应用场景 • 计算存储分离

22 .兼容开源组件 EMR Studio 在开源软件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基础上优化了做了 优化和增强。

23 .支持连接多个集群 一个 EMR Studio 可以连接多个EMR计算集群,您可 以很方便地切换计算集群,提交作业到不同的计算集 群上运行。

24 .适配多个计算引擎 自动适配Hive、Spark、Flink、Presto、Impala和Shell 等多个计算引擎,无需复杂 配置,多个计算引擎间协同工作

25 .交互式开发 + 作业调度无缝衔接 Notebook + Airflow: 无缝衔接开发环节和生产调度环节 • 利用交互式开发模式可以快速验证作业的正确性。 • 在Airflow里调度Notebook作业,最大程度得保证开发环境和生产环境的一致性,防 止由于开发阶段和生产阶段环境不一致而导致的问题。

26 .计算存储分离 • 所有数据都保存在OOS上,包括: • 用户Notebook代码 • 调度作业Log • 即使集群销毁,也可以重建 集群轻松恢复数据

27 .适用多种大数据应用场景 • 大数据处理 ETL • 交互式数据分析 • 机器学习 • 实时计算

28 . Demo https://help.aliyun.com/document_detail/208107.html?spm=a2c4g.11186623.6.845.6cfc24577t1RbI

29 .

0 点赞
1 收藏
13下载
确认
3秒后跳转登录页面
去登陆