申请试用
HOT
登录
注册
 
【数据湖JindoFS+OSS 实操干货36讲】第19/20讲
【数据湖JindoFS+OSS 实操干货36讲】第19/20讲

【数据湖JindoFS+OSS 实操干货36讲】第19/20讲

Apache Spark中国技术交流社区
/
发布于
/
99
人观看

概念简述

JindoFS 作为阿里云基于 OSS 的一揽子数据湖存储优化方案,完全兼容 Hadoop/Spark 生态,并针对 Spark、Hive、Flink、Presto 等大数据组件和 AI 生态实现了大量扩展和优化。

JindoFS 项目包括 JindoFS OSS 支持、JindoFS 分布式缓存系统(JindoFS Cache 模式)和 JindoFS 分布式存储优化系统(JindoFS Block 模式)。

JindoSDK 是各个计算组件可以用来使用JindoFS 这些优化扩展功能和模式的套件,包括 Hadoop Java SDK、Python SDK 和 Fuse/POSIX 支持。JindoSDK 在阿里云 E-MapReduce 产品中被深度集成,同时也开放给非 EMR 产品用户在各种 Hadoop/Spark 环境上使用。

GitHub 地址:

https://github.com/aliyun/alibabacloud-jindofs

课程背景

为了让更多开发者了解并使用 JindoFS,由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】会在每周二16:00准时开讲!从五大板块入手,玩转数据湖!

本期主题:

1、Spark 对 OSS 上的 Parquet 数据进行查询加速
2、Spark 对 OSS 上的 ORC 数据进行查询加速

主讲人:

流影 - 阿里巴巴计算平台事业部 EMR 技术专家
健身 - 阿里巴巴计算平台事业部 EMR 技术专家

0 点赞
0 收藏
0下载
确认
3秒后跳转登录页面
去登陆