基于Apache Superset和EMR Spark打造交互式数据探索平台

主题:
使用Apache SuperSet和EMR Spark打造交互式的数据探索平台

直播介绍:
本次分享主要介绍如何结合Apache SuperSet和EMR Spark,利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应,交互式的可视化数据探索。

主讲人:
李呈祥,花名司麟,阿里云智能EMR团队高级技术专家,Apache Hive Committer, Apache Flink Committer,目前主要专注于EMR产品中开源计算引擎的优化工作。


阿里巴巴开源大数据EMR技术团队成立Apache Spark中国技术社区,定期打造国内Spark线上线下交流活动。请持续关注。
钉钉群号:21784001
钉钉团队群号:HPRX8117
微信公众号:Apache Spark技术交流社区

展开查看详情

1.基于Apache Superset和EMR Spark 打造交互式的数据探索平台 阿 里 云 智 能 EM R 李 呈 祥

2.目录 1 Superset介绍 2 EMR Spark JindoCube介绍 3 Demo

3.Apache Superset介绍 Part I

4.Apache Superset 1. 一个开源的数据展示和探索平台。 2. 支持丰富的图表类型,可灵活创建和分享 Dashboard。 3. 一 个 简 单 易 用 的 Semantic层 , 方 便 用 户 决 定 如 何 在 UI上 展 示 数 据 。 4. 支持非常多的数据库,数据仓库。

5.Apache Superset 简 单 易 用 的 Semantic层 : 定 义 要 展 示 的 数 据 1. Datasource&Chart Type 2. Time 3. Query 1. Dimension 2. Metric 3. Filter 4. Limit

6.EMR Spark JindoCube介绍 Part II

7.EMR Spark JindoCube:透明的Spark SQL加速器 Spark SQL查询 定期同步 创建JindoCube 使用JindoCube JindoCube数据 加速 通过提前对数据进行预计算和预组织加速Spark SQL 适用场景:MOLAP多维分析,数据Dashboard,BI报表等

8.EMR Spark JindoCube:透明的Spark SQL加速器 1. 使 用 任 意 表 和 View构 建 Cache。 2. Parquet/ORC/Delta高 效 的 列 式 存 储 。 3. 充 分 利 用 Spark引 擎 强 大 的 现 场 计 算 能 力 。 4. Spark SQL透 明 的 加 速 支 持 。

9.EMR Spark JindoCube:Raw Cache 1. 任 意 Table/View。 2. 可 选 择 需 要 cache的 数 据 列 。 3. 支 持 将 Cache数 据 存 储 在 任 意 Spark DataSource中 。 4. 支 持 cache数 据 的 分 区 。 5. 支 持 Zorder排 序 。

10.EMR Spark JindoCube:Cube Cache 1. 任 意 Table/View。 2. 选 择 Dim ension与 M etrics, 支 持 COUNT DISTINCT和 APPROX_COUNT_DISTINCT。 3. 支 持 将 Cache数 据 存 储 在 任 意 Spark DataSource中 。 4. 支 持 cache数 据 的 分 区 。 5. 支 持 Zorder排 序 。

11.Demo Part III

12.Star Schema Benchmark • 修 改 自 TPCH, 对 数 据 模 型 和 查 询 进 行 了 调 整 和简化。 • 星型数据模型,专门为典型数据仓库应用设 计 的 Benchmark。

13.THANKS/感谢聆听 商业智能部 小敏

阿里巴巴开源大数据EMR技术团队成立Apache Spark中国技术社区,定期打造国内Spark线上线下交流活动。请持续关注。 钉钉群号:21784001 团队群号:HPRX8117 微信公众号:Apache Spark技术交流社区
关注他