申请试用
HOT
登录
注册
 
【数据湖JindoFS+OSS 实操干货36讲】第17/18讲
【数据湖JindoFS+OSS 实操干货36讲】第17/18讲

【数据湖JindoFS+OSS 实操干货36讲】第17/18讲

Apache Spark中国技术交流社区
/
发布于
/
332
人观看

概念简述

JindoFS 作为阿里云基于 OSS 的一揽子数据湖存储优化方案,完全兼容 Hadoop/Spark 生态,并针对 Spark、Hive、Flink、Presto 等大数据组件和 AI 生态实现了大量扩展和优化。

JindoFS 项目包括 JindoFS OSS 支持、JindoFS 分布式缓存系统(JindoFS Cache 模式)和 JindoFS 分布式存储优化系统(JindoFS Block 模式)。

JindoSDK 是各个计算组件可以用来使用JindoFS 这些优化扩展功能和模式的套件,包括 Hadoop Java SDK、Python SDK 和 Fuse/POSIX 支持。JindoSDK 在阿里云 E-MapReduce 产品中被深度集成,同时也开放给非 EMR 产品用户在各种 Hadoop/Spark 环境上使用。

GitHub 地址:

https://github.com/aliyun/alibabacloud-jindofs

课程背景

为了让更多开发者了解并使用 JindoFS,由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】会在每周二16:00准时开讲!从五大板块入手,玩转数据湖!

本期主题:

1、Fluid + JindoFS 对 HDFS 上的数据进行训练加速
2、Fluid + JindoFS 对 海量小文件的训练加速

主讲人:

辰山- 阿里巴巴计算平台事业部 EMR 技术专家

0点赞
0收藏
0下载
确认
3秒后跳转登录页面
去登陆