申请试用
HOT
登录
注册
 
【数据湖JindoFS+OSS 实操干货36讲】第17/18讲
0 点赞
0 收藏
0下载
Apache Spark中国技术交流社区
/
发布于
/
24
人观看

概念简述

JindoFS 作为阿里云基于 OSS 的一揽子数据湖存储优化方案,完全兼容 Hadoop/Spark 生态,并针对 Spark、Hive、Flink、Presto 等大数据组件和 AI 生态实现了大量扩展和优化。

JindoFS 项目包括 JindoFS OSS 支持、JindoFS 分布式缓存系统(JindoFS Cache 模式)和 JindoFS 分布式存储优化系统(JindoFS Block 模式)。

JindoSDK 是各个计算组件可以用来使用JindoFS 这些优化扩展功能和模式的套件,包括 Hadoop Java SDK、Python SDK 和 Fuse/POSIX 支持。JindoSDK 在阿里云 E-MapReduce 产品中被深度集成,同时也开放给非 EMR 产品用户在各种 Hadoop/Spark 环境上使用。

GitHub 地址:

https://github.com/aliyun/alibabacloud-jindofs

课程背景

为了让更多开发者了解并使用 JindoFS,由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】会在每周二16:00准时开讲!从五大板块入手,玩转数据湖!

本期主题:

1、Fluid + JindoFS 对 HDFS 上的数据进行训练加速
2、Fluid + JindoFS 对 海量小文件的训练加速

主讲人:

辰山- 阿里巴巴计算平台事业部 EMR 技术专家

展开查看详情

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

11.

12.

13.

14.

15.

16.

17.

18.

19.

20.

21.

22.

23.

24.

25.

26.

27.

28.

29.

0 点赞
0 收藏
0下载