- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
2.如何快速搭建云原生企业级数据湖架构及实践分享-王震
众所周知,数据湖技术在大数据领域炙手可热,随着在云上的广泛部署和应用,其业务价值逐渐获得业界共识。如何快搭建数据湖架构被越来越多的企业探讨。本次演讲通过数据湖构建DLF10分钟搭建企业数据湖架构以及众多实践分享,与大家深入探讨数据湖的应用。
王震,阿里云计算平台事业部开源大数据平台技术专家
展开查看详情
1 .DLF 10分钟数据入湖 数据湖架构实践分享
2 .什么是数据湖? 以一定规则形式存储各种类型的数据 • 结构化数据 (Orc, Parquet) • 半结构化数据 (Json, Xml) • 非结构化数据 (图像, 视频)
3 .为什么需要数据湖? 1. 数据规模进一步扩大 • 大数据存储需要治理 • 数据治理需要厘清数据依赖关系(血缘) • 用户需要明确大数据整体成本 (TCO) 2. 数据来源多样化 3. 数据格式多样化 4. 数据分析场景多样化 5. 数据分析用户多元化
4 .为什么需要数据湖? 1. 数据规模进一步扩大 2. 数据来源多样化 • 事务数据 (MySQL, SqlServer) • 搜索数据 (SOLR) • 批处理数据 (SPARK, HIVE) 3. 数据格式多样化 • Parquet / Orc / Avro / Csv / Json / Text 4. 数据分析场景多样化 5. 数据分析用户多元化
5 .为什么需要数据湖? 1. 数据规模进一步扩大 2. 数据来源多样化 3. 数据格式多样化 4. 数据分析场景多样化 • 基于语义的搜索分析 • 随机/近实时OLAP分析 5. 数据分析用户多元化
6 .为什么需要数据湖? 1. 数据规模进一步扩大 2. 数据来源多样化 3. 数据格式多样化 4. 数据分析场景多样化 5. 数据分析用户多元化 • 分析用户角色多元化 (开发/测试/数据/BI) • 用户数据访问合规管控诉求
7 .数据湖能做什么? 数据湖计算引擎 1. 数据规模进一步扩大 EM R D atab ricks D ataInsig ht PA I M axC om p ute M C -H olog res • 大数据存储需要治理 D ata Lake Form ation • 数据治理需要厘清数据依赖关系(血缘) 元数据管理 元数据编目 元数据发现 元数据抽取 • 用户需要明确大数据整体成本 (TCO) 访问控制 ▪ 数据湖提供 【数据血缘】服务 访问权限控制 访问日志审计 ▪ 数据湖提供 【数据治理】服务 数据入湖 多数据源入湖 离线/实时入湖 数据预处理 M ySQ L、 SLS、 O TS等 支持D elta/H u d i格式 自定义U D F、 ETL流程 ▪ 数据湖帮助用户明确大数据的整体成本 数据湖存储O S S
8 .数据湖能做什么? 1. 数据来源多样化 数据湖计算引擎 • 事务数据 / 搜索数据 / 批处理数据 EM R D atab ricks D ataInsig ht PA I M axC om p ute M C -H olog res 2. 数据格式多样化 D ata Lake Form ation • Parquet / Orc / Avro / Csv / Json / Text 元数据管理 元数据编目 元数据发现 元数据抽取 ▪ DLF提供【统一元数据】服务 访问控制 访问权限控制 访问日志审计 ▪ 解决多引擎元数据一致性问题 数据入湖 ▪ 解决元数据使用和维护成本问题 多数据源入湖 M ySQ L、 SLS、 O TS等 离线/实时入湖 支持D elta/H u d i格式 数据预处理 自定义U D F、 ETL流程 数据湖存储O S S ▪ DLF提供【数据入湖/元数据爬取】服务 ▪ 支持MYSQL/KAFKA 入湖,元数据爬取 ▪ 支持离线/实时入湖, 满足不同业务时效要求 ▪ 支持DELTA/HUDI等数据湖格式
9 .数据湖能做什么? 数据湖计算引擎 1. 数据分析场景多样化 EM R D atab ricks D ataInsig ht PA I M axC om p ute M C -H olog res • 基于语义的搜索分析 D ata Lake Form ation • 随机/近实时OLAP分析 元数据管理 元数据编目 元数据发现 元数据抽取 访问控制 ▪ DLF提供【统一元数据服务】 访问权限控制 访问日志审计 ▪ 可以切换不同引擎 MC/EMR/DDI 数据入湖 ▪ 数据探索在不同引擎之间一致 多数据源入湖 M ySQ L、 SLS、 O TS等 离线/实时入湖 支持D elta/H u d i格式 数据预处理 自定义U D F、 ETL流程 数据湖存储O S S
10 .数据湖能做什么? 数据湖计算引擎 1. 数据分析用户多元化 EM R D atab ricks D ataInsig ht PA I M axC om p ute M C -H olog res • 分析用户角色多元化 (开发/测试/数据/BI) D ata Lake Form ation • 用户数据访问合规管控诉求 元数据管理 元数据编目 元数据发现 元数据抽取 访问控制 ▪ 数据湖提供【访问权限控制】服务 访问权限控制 访问日志审计 ▪ 多引擎下的数据访问集中授权/避免反复授权 数据入湖 ▪ 解决多用户数据访问合规问题 多数据源入湖 M ySQ L、 SLS、 O TS等 离线/实时入湖 支持D elta/H u d i格式 数据预处理 自定义U D F、 ETL流程 数据湖存储O S S ▪ 数据湖提供【访问日志审计】服务 ▪ 解决用用户数据访问合规审查问题
11 .如何使用DLF数据湖 – 数据入湖 ▪ 大量异构外部数据源 【数据入湖】服务 • 全量导入 : 批量入湖一次导入 • 增量导入 : 实时入湖流失增量导入 ▪ 大量现存Hadoop生态数据 【元数据爬取】服务 • 将数据导入数据湖OSS进行存储 • 元数据爬取 提取原有数据schema
12 .如何使用DLF数据湖 – 数据查询 ▪ 数据湖【统一元数据】服务支持多种引擎查询 ▪ 使用数据探索(SPARK)对入湖数据进行探查 ▪ 使用MAXCOMPUTE 对数据进行深度复杂加工 ▪ 使用Databricks DDI 专用集群对数据进行探索 ▪ 更多引擎支持中…
13 .如何使用DLF数据湖 – 数据治理 ▪ 使用【权限访问控制】服务控制数据访问 • 进行 库/表/列 级别的访问权限设置 • 统一的元数据,只需要设置一次 ▪ 使用【数据治理】服务明确大数据总成本 • 日/周/月 级别的存储使用情况 – 及时释放过时的大存储文件 • 日/周/月 级别的计算使用情况 – 及时识别数据上的异常计算
14 .DEMO
15 .Thanks