申请试用
HOT
登录
注册
 
【数据湖JindoFS+OSS 实操干货36讲】第9/10讲
2 点赞
0 收藏
0下载
Apache Spark中国技术交流社区
/
发布于
/
21
人观看

概念简述

JindoFS 作为阿里云基于 OSS 的一揽子数据湖存储优化方案,完全兼容 Hadoop/Spark 生态,并针对 Spark、Hive、Flink、Presto 等大数据组件和 AI 生态实现了大量扩展和优化。

JindoFS 项目包括 JindoFS OSS 支持、JindoFS 分布式缓存系统(JindoFS Cache 模式)和 JindoFS 分布式存储优化系统(JindoFS Block 模式)。

JindoSDK 是各个计算组件可以用来使用JindoFS 这些优化扩展功能和模式的套件,包括 Hadoop Java SDK、Python SDK 和 Fuse/POSIX 支持。JindoSDK 在阿里云 E-MapReduce 产品中被深度集成,同时也开放给非 EMR 产品用户在各种 Hadoop/Spark 环境上使用。

GitHub 地址:

https://github.com/aliyun/alibabacloud-jindofs

课程背景

为了让更多开发者了解并使用 JindoFS,由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】会在每周二16:00准时开讲!从五大板块入手,玩转数据湖!

本期主题:

1、Presto 如何高效查询 OSS 数据
2、Impala 如何高效查询 OSS 数据

主讲人:

健身-阿里巴巴计算平台事业部 EMR 技术专家
流影-阿里巴巴计算平台事业部 EMR 技术专家

展开查看详情

1. | E-MapReduce | 对象存储OSS 数据湖 JindoFS + OSS 实操36讲 【数据迁移】Presto 如何高效查询 OSS 数据 演讲人:健身 阿里巴巴计算平台事业部 开源大数据平台 技术专家 2021.06.08

2. Presto介绍 JindoSDK安装 CONTENT 使用 相关资料

3. Presto介绍 JindoSDK安装 CONTENT 使用 相关资料

4.Presto 介绍:SQL-on-Anything • 为性能和规模而生 • 存储计算分离,没有存储 • 最初针对 HDFS 进行设计 Object HDFS RDBMS NoSQL …… • 原地查询,无需迁移数据 Store

5. Presto介绍 JindoSDK安装 CONTENT 使用 相关资料

6.JindoSDK 安装 • 1.下载最新的jar包 jindofs-sdk-x.x.x.jar (下载页面),然后在所有 Presto 节点安装 JindoFS SDK。 cp jindofs-sdk-${version}.jar $PRESTO_HOME/plugin/hive-hadoop2/

7.JindoSDK 安装 • 2.配置 JindoFS OSS 实现类。

8.JindoSDK 安装 • 3. 配置 OSS Access Key • 请参考 https://github.com/aliyun/alibabacloud- jindofs/blob/master/docs/jindofs_sdk_credential_provider.md • 4. 重启 Presto 所有服务,使配置生效 • 5. 现在 hive catalog 即可访问 OSS

9. Presto介绍 JindoSDK安装 CONTENT 使用 相关资料

10.查询演示 • 安装 JindoSDK • 配置 Presto • 读取鸢尾花数据集并写入 OSS • 从 OSS 查询鸢尾花数据集

11. Presto介绍 JindoSDK安装 CONTENT 使用 相关资料

12.相关资料 • 1. 下载JindoFS SDK:https://github.com/aliyun/alibabacloud- jindofs/blob/master/docs/jindofs_sdk_download.md • 2. Presto 使用 JindoSDK: https://github.com/aliyun/alibabacloud- jindofs/blob/master/docs/jindosdk_on_presto.md

13. | E-MapReduce | 对象存储OSS 数据湖 JindoFS + OSS 实操36讲 【OSS 访问加速】Impala 如何高效查询 OSS 数据 演讲人:许益铭(流影) 阿里巴巴计算平台事业部 开源大数据平台 技术专家 2021.05.25

14. 背景介绍 Impala 使用 JindoSDK CONTENT 演示

15.Apache Impala 介绍 能够对存储在 Hadoop 集群的PB级数据进行快速SQL查询分析的分 布式MPP查询框架

16.使用 JindoSDK 高效查询 OSS 数据 JindoFS SDK是一个简单易用面向Hadoop/Spark生态的OSS客户端, 为阿里云 OSS 提供高度优化的 Hadoop FileSystem 实现。 通过 JindoFS SDK,可以在 Hadoop 环境中直接使 用 oss://bucket/ 的方式访问阿里云 OSS 上的内容。

17.Impala 使用 JindoSDK

18.安装 jar 包 下载最新的jar包 jindofs-sdk-x.x.x.jar ,将sdk包安装到Impala的lib 下。(下载链接请看PPT末尾) cp jindofs-sdk-${version}.jar $IMPALA_HOME/lib/

19.配置 JindoFS OSS 实现类 配置 IMPALA 使用的 core-site.xml 配置 JindoFS SDK 访问 OSS

20.配置 OSS Access Key 将OSS的Access Key、Access Key Secret、Endpoint等预先配置在 Hadoop的core-site.xml中。

21.使用 JindoFS SDK 访问 OSS

22.演示 1. 下载JindoFS SDK 2. 将jar包拷贝到 $IMPALA_HOME/lib/ 3. 修改 JindoSDK 配置 4. 演示 Impala 加载和查询 OSS 表

23. 相关资源 1. 下载JindoFS SDK : https://github.com/aliyun/alibabacloud- jindofs/blob/master/docs/jindofs_sdk_download.md 2. Impala 使用 JindoSDK: https://github.com/aliyun/alibabacloud- jindofs/blob/master/docs/impala/jindosdk_on_impala.md

24. E-MapReduce | E-MapReduce | 对象存储OSS 每周二 16:00 锁定系列直播 ▲ 欢迎钉钉扫码入群交流 ▲

2 点赞
0 收藏
0下载