申请试用
HOT
登录
注册
 
【数据湖JindoFS+OSS 实操干货36讲】第5/6讲
0 点赞
0 收藏
0下载
Apache Spark中国技术交流社区
/
发布于
/
34
人观看

概念简述

JindoFS 作为阿里云基于 OSS 的一揽子数据湖存储优化方案,完全兼容 Hadoop/Spark 生态,并针对 Spark、Hive、Flink、Presto 等大数据组件和 AI 生态实现了大量扩展和优化。

JindoFS 项目包括 JindoFS OSS 支持、JindoFS 分布式缓存系统(JindoFS Cache 模式)和 JindoFS 分布式存储优化系统(JindoFS Block 模式)。

JindoSDK 是各个计算组件可以用来使用JindoFS 这些优化扩展功能和模式的套件,包括 Hadoop Java SDK、Python SDK 和 Fuse/POSIX 支持。JindoSDK 在阿里云 E-MapReduce 产品中被深度集成,同时也开放给非 EMR 产品用户在各种 Hadoop/Spark 环境上使用。

GitHub 地址:

https://github.com/aliyun/alibabacloud-jindofs

课程背景

为了让更多开发者了解并使用 JindoFS,由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】会在每周二16:00准时开讲!从五大板块入手,玩转数据湖!

本期主题:

1、访问 OSS 这类对象存储最快的方式:JindoFS SDK

2、Hadoop/Spark 访问 OSS 加速

主讲人:

诚历 - 阿里巴巴计算平台事业部 EMR 技术专家

流影 - 阿里巴巴计算平台事业部 EMR 技术专家

展开查看详情

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

11.

12.

13. | E-MapReduce | 对象存储OSS 数据湖 JindoFS + OSS 实操36讲 【OSS 访问加速】Hadoop和Spark 访问 OSS 加速 演讲人:许益铭(流影) 阿里巴巴计算平台事业部 EMR 技术专家 2021.05.25

14. JindoSDK介绍 Hadoop 使用JindoSDK CONTENT Spark 使用 JindoSDK 演示

15.JindoSDK 简单介绍 JindoFS SDK是一个简单易用面向Hadoop/Spark生态的OSS客户端, 为阿里云 OSS 提供高度优化的 Hadoop FileSystem 实现。 通过 JindoFS SDK,可以在 Hadoop 环境中直接使 用 oss://bucket/ 的方式访问阿里云 OSS 上的内容。 例如:

16.为什么使用JindoSDK • 优异的性能表现:和开源版本的 Hadoop-OSS-SDK 进行对比, 各项操作性能均显著好于Hadoop-OSS-SDK • 良好的兼容性:兼容市面上大部分 Hadoop 版本,JindoFS SDK 在 Hadoop 2.3 及以上的版本上验证通过 • 专业团队维护:阿里云 EMR Hadoop 团队维护,JindoFS Hadoop SDK 在阿里云 EMR 等产品中广泛使用 • 功能更新快:及时跟进 OSS 最新特性和优化,版本更新及时。

17.Hadoop 使用 JindoFS SDK 访问 OSS

18.安装 jar 包 下载最新的jar包 jindofs-sdk-x.x.x.jar ,将sdk包安装到hadoop的 classpath下。

19.配置 JindoFS OSS 实现类 将 JindoFS OSS 实现类配置到Hadoop的core-site.xml中。

20.配置 OSS Access Key 将OSS的Access Key、Access Key Secret、Endpoint等预先配置在 Hadoop的core-site.xml中。

21.使用 JindoFS SDK 访问 OSS 用Hadoop Shell访问OSS,下面列举了几个常用的命令。 • put 操作: hadoop fs -put <path> oss://<bucket>/ • ls 操作: hadoop fs -ls oss://<bucket>/ • mkdir操作: hadoop fs -mkdir oss://<bucket>/<path> • rm操作: hadoop fs rm oss://<bucket>/<path>

22.Spark 使用 JindoFS SDK 访问 OSS

23.在 Spark CLASSPATH 中添加 JindoFS SDK 下载最新的jar包 jindofs-sdk-x.x.x.jar,将sdk包安装到 Spark 的 classpath下。 cp jindofs-sdk-${version}.jar $SPARK_HOME/jars/

24.配置 JindoFS SDK 全局配置:参考 Hadoop 配置 任务级别配置:spark-submit --conf spark.hadoop.fs.AbstractFileSystem.oss.impl=com.aliyun.emr.fs.oss.OSS - -conf spark.hadoop.fs.oss.impl=com.aliyun.emr.fs.oss.JindoOssFileSystem -- conf spark.hadoop.fs.jfs.cache.oss.accessKeyId=xxx --conf spark.hadoop.fs.jfs.cache.oss.accessKeySecret=xxx --conf spark.hadoop.fs.jfs.cache.oss.endpoint=oss-cn-xxx.aliyuncs.com

25.访问 OSS 完成配置之后,启动的 Spark 任务访问 OSS 默认就使用 JindoSDK 访 问

26.演示 1. 下载JindoFS SDK 2. 将jar包拷贝到hadoop classpath 3. 修改配置 4. 演示 hadoop 命令 5. 将jar包拷贝到 Spark ${SPARK_HOME}/jars 6. 演示 Spark 访问 OSS

27. 相关资源 1. 下载JindoFS SDK : https://github.com/aliyun/alibabacloud- jindofs/blob/master/docs/jindofs_sdk_download.md 2. Hadoop 使用 JindoSDK: https://github.com/aliyun/alibabacloud- jindofs/blob/master/docs/jindofs_sdk_how_to_hadoop.md 3. Spark 使用 JindoSDK: https://github.com/aliyun/alibabacloud- jindofs/blob/master/docs/spark/jindosdk_on_spark.md

28. E-MapReduce | E-MapReduce | 对象存储OSS 每周二 16:00 锁定系列直播 ▲ 欢迎钉钉扫码入群交流 ▲

0 点赞
0 收藏
0下载