申请试用
HOT
登录
注册
 
【数据湖JindoFS+OSS 实操干货36讲】第17/18讲
Apache Spark中国技术交流社区
/
发布于
/
74
人观看

概念简述

JindoFS 作为阿里云基于 OSS 的一揽子数据湖存储优化方案,完全兼容 Hadoop/Spark 生态,并针对 Spark、Hive、Flink、Presto 等大数据组件和 AI 生态实现了大量扩展和优化。

JindoFS 项目包括 JindoFS OSS 支持、JindoFS 分布式缓存系统(JindoFS Cache 模式)和 JindoFS 分布式存储优化系统(JindoFS Block 模式)。

JindoSDK 是各个计算组件可以用来使用JindoFS 这些优化扩展功能和模式的套件,包括 Hadoop Java SDK、Python SDK 和 Fuse/POSIX 支持。JindoSDK 在阿里云 E-MapReduce 产品中被深度集成,同时也开放给非 EMR 产品用户在各种 Hadoop/Spark 环境上使用。

GitHub 地址:

https://github.com/aliyun/alibabacloud-jindofs

课程背景

为了让更多开发者了解并使用 JindoFS,由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】会在每周二16:00准时开讲!从五大板块入手,玩转数据湖!

本期主题:

1、Fluid + JindoFS 对 HDFS 上的数据进行训练加速
2、Fluid + JindoFS 对 海量小文件的训练加速

主讲人:

辰山- 阿里巴巴计算平台事业部 EMR 技术专家

展开查看详情

1 .

2 .

3 .

4 .

5 .

6 .

7 .

8 .

9 .

10 .

11 .

12 .

13 .

14 .

15 .

16 .

17 .

18 .

19 .

20 .

21 .

22 .

23 .

24 .

25 .

26 .

27 .

28 .

29 .

0 点赞
0 收藏
0下载
确认
3秒后跳转登录页面
去登陆