- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
【数据湖JindoFS+OSS 实操干货36讲】第9/10讲
概念简述
JindoFS 作为阿里云基于 OSS 的一揽子数据湖存储优化方案,完全兼容 Hadoop/Spark 生态,并针对 Spark、Hive、Flink、Presto 等大数据组件和 AI 生态实现了大量扩展和优化。
JindoFS 项目包括 JindoFS OSS 支持、JindoFS 分布式缓存系统(JindoFS Cache 模式)和 JindoFS 分布式存储优化系统(JindoFS Block 模式)。
JindoSDK 是各个计算组件可以用来使用JindoFS 这些优化扩展功能和模式的套件,包括 Hadoop Java SDK、Python SDK 和 Fuse/POSIX 支持。JindoSDK 在阿里云 E-MapReduce 产品中被深度集成,同时也开放给非 EMR 产品用户在各种 Hadoop/Spark 环境上使用。
GitHub 地址:
https://github.com/aliyun/alibabacloud-jindofs
课程背景
为了让更多开发者了解并使用 JindoFS,由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】会在每周二16:00准时开讲!从五大板块入手,玩转数据湖!
本期主题:
1、Presto 如何高效查询 OSS 数据
2、Impala 如何高效查询 OSS 数据
主讲人:
健身-阿里巴巴计算平台事业部 EMR 技术专家
流影-阿里巴巴计算平台事业部 EMR 技术专家
展开查看详情
1 . | E-MapReduce | 对象存储OSS 数据湖 JindoFS + OSS 实操36讲 【数据迁移】Presto 如何高效查询 OSS 数据 演讲人:健身 阿里巴巴计算平台事业部 开源大数据平台 技术专家 2021.06.08
2 . Presto介绍 JindoSDK安装 CONTENT 使用 相关资料
3 . Presto介绍 JindoSDK安装 CONTENT 使用 相关资料
4 .Presto 介绍:SQL-on-Anything • 为性能和规模而生 • 存储计算分离,没有存储 • 最初针对 HDFS 进行设计 Object HDFS RDBMS NoSQL …… • 原地查询,无需迁移数据 Store
5 . Presto介绍 JindoSDK安装 CONTENT 使用 相关资料
6 .JindoSDK 安装 • 1.下载最新的jar包 jindofs-sdk-x.x.x.jar (下载页面),然后在所有 Presto 节点安装 JindoFS SDK。 cp jindofs-sdk-${version}.jar $PRESTO_HOME/plugin/hive-hadoop2/
7 .JindoSDK 安装 • 2.配置 JindoFS OSS 实现类。
8 .JindoSDK 安装 • 3. 配置 OSS Access Key • 请参考 https://github.com/aliyun/alibabacloud- jindofs/blob/master/docs/jindofs_sdk_credential_provider.md • 4. 重启 Presto 所有服务,使配置生效 • 5. 现在 hive catalog 即可访问 OSS
9 . Presto介绍 JindoSDK安装 CONTENT 使用 相关资料
10 .查询演示 • 安装 JindoSDK • 配置 Presto • 读取鸢尾花数据集并写入 OSS • 从 OSS 查询鸢尾花数据集
11 . Presto介绍 JindoSDK安装 CONTENT 使用 相关资料
12 .相关资料 • 1. 下载JindoFS SDK:https://github.com/aliyun/alibabacloud- jindofs/blob/master/docs/jindofs_sdk_download.md • 2. Presto 使用 JindoSDK: https://github.com/aliyun/alibabacloud- jindofs/blob/master/docs/jindosdk_on_presto.md
13 . | E-MapReduce | 对象存储OSS 数据湖 JindoFS + OSS 实操36讲 【OSS 访问加速】Impala 如何高效查询 OSS 数据 演讲人:许益铭(流影) 阿里巴巴计算平台事业部 开源大数据平台 技术专家 2021.05.25
14 . 背景介绍 Impala 使用 JindoSDK CONTENT 演示
15 .Apache Impala 介绍 能够对存储在 Hadoop 集群的PB级数据进行快速SQL查询分析的分 布式MPP查询框架
16 .使用 JindoSDK 高效查询 OSS 数据 JindoFS SDK是一个简单易用面向Hadoop/Spark生态的OSS客户端, 为阿里云 OSS 提供高度优化的 Hadoop FileSystem 实现。 通过 JindoFS SDK,可以在 Hadoop 环境中直接使 用 oss://bucket/ 的方式访问阿里云 OSS 上的内容。
17 .Impala 使用 JindoSDK
18 .安装 jar 包 下载最新的jar包 jindofs-sdk-x.x.x.jar ,将sdk包安装到Impala的lib 下。(下载链接请看PPT末尾) cp jindofs-sdk-${version}.jar $IMPALA_HOME/lib/
19 .配置 JindoFS OSS 实现类 配置 IMPALA 使用的 core-site.xml 配置 JindoFS SDK 访问 OSS
20 .配置 OSS Access Key 将OSS的Access Key、Access Key Secret、Endpoint等预先配置在 Hadoop的core-site.xml中。
21 .使用 JindoFS SDK 访问 OSS
22 .演示 1. 下载JindoFS SDK 2. 将jar包拷贝到 $IMPALA_HOME/lib/ 3. 修改 JindoSDK 配置 4. 演示 Impala 加载和查询 OSS 表
23 . 相关资源 1. 下载JindoFS SDK : https://github.com/aliyun/alibabacloud- jindofs/blob/master/docs/jindofs_sdk_download.md 2. Impala 使用 JindoSDK: https://github.com/aliyun/alibabacloud- jindofs/blob/master/docs/impala/jindosdk_on_impala.md
24 . E-MapReduce | E-MapReduce | 对象存储OSS 每周二 16:00 锁定系列直播 ▲ 欢迎钉钉扫码入群交流 ▲