- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- <iframe src="https://www.slidestalk.com/ray/ApacheSupersetEMRSpark27046?embed&video" frame border="0" width="640" height="360" scrolling="no" allowfullscreen="true">复制
- 微信扫一扫分享
基于Apache Superset和EMR Spark打造交互式数据探索平台
主题:
使用Apache SuperSet和EMR Spark打造交互式的数据探索平台
直播介绍:
本次分享主要介绍如何结合Apache SuperSet和EMR Spark,利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应,交互式的可视化数据探索。
主讲人:
李呈祥,花名司麟,阿里云智能EMR团队高级技术专家,Apache Hive Committer, Apache Flink Committer,目前主要专注于EMR产品中开源计算引擎的优化工作。
阿里巴巴开源大数据EMR技术团队成立Apache Spark中国技术社区,定期打造国内Spark线上线下交流活动。请持续关注。
钉钉群号:21784001
钉钉团队群号:HPRX8117
微信公众号:Apache Spark技术交流社区
展开查看详情
1 .基于Apache Superset和EMR Spark 打造交互式的数据探索平台 阿 里 云 智 能 EM R 李 呈 祥
2 .目录 1 Superset介绍 2 EMR Spark JindoCube介绍 3 Demo
3 .Apache Superset介绍 Part I
4 .Apache Superset 1. 一个开源的数据展示和探索平台。 2. 支持丰富的图表类型,可灵活创建和分享 Dashboard。 3. 一 个 简 单 易 用 的 Semantic层 , 方 便 用 户 决 定 如 何 在 UI上 展 示 数 据 。 4. 支持非常多的数据库,数据仓库。
5 .Apache Superset 简 单 易 用 的 Semantic层 : 定 义 要 展 示 的 数 据 1. Datasource&Chart Type 2. Time 3. Query 1. Dimension 2. Metric 3. Filter 4. Limit
6 .EMR Spark JindoCube介绍 Part II
7 .EMR Spark JindoCube:透明的Spark SQL加速器 Spark SQL查询 定期同步 创建JindoCube 使用JindoCube JindoCube数据 加速 通过提前对数据进行预计算和预组织加速Spark SQL 适用场景:MOLAP多维分析,数据Dashboard,BI报表等
8 .EMR Spark JindoCube:透明的Spark SQL加速器 1. 使 用 任 意 表 和 View构 建 Cache。 2. Parquet/ORC/Delta高 效 的 列 式 存 储 。 3. 充 分 利 用 Spark引 擎 强 大 的 现 场 计 算 能 力 。 4. Spark SQL透 明 的 加 速 支 持 。
9 .EMR Spark JindoCube:Raw Cache 1. 任 意 Table/View。 2. 可 选 择 需 要 cache的 数 据 列 。 3. 支 持 将 Cache数 据 存 储 在 任 意 Spark DataSource中 。 4. 支 持 cache数 据 的 分 区 。 5. 支 持 Zorder排 序 。
10 .EMR Spark JindoCube:Cube Cache 1. 任 意 Table/View。 2. 选 择 Dim ension与 M etrics, 支 持 COUNT DISTINCT和 APPROX_COUNT_DISTINCT。 3. 支 持 将 Cache数 据 存 储 在 任 意 Spark DataSource中 。 4. 支 持 cache数 据 的 分 区 。 5. 支 持 Zorder排 序 。
11 .Demo Part III
12 .Star Schema Benchmark • 修 改 自 TPCH, 对 数 据 模 型 和 查 询 进 行 了 调 整 和简化。 • 星型数据模型,专门为典型数据仓库应用设 计 的 Benchmark。
13 .THANKS/感谢聆听 商业智能部 小敏