- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
基于DLF+EMR的云原生数据湖构建、管理与分析
第一课:基于DLF+EMR的云原生数据湖构建、管理与分析
讲师:宋军,花名嵩林,阿里巴巴高级技术专家
介绍:
数字化是各行各业的发展趋势,数据成为其中最重要的生产资料。数据源越来越多,数据也呈爆发式增长,如何有效的管理数据,充分挖掘数据价值,同时考虑成本性能等因素,数据湖架构越来越多的被提起,本次直播会介绍数据湖架构遇到的一些问题和挑战,以及基于DLF+EMR的云原生数据湖构建、管理与分析
展开查看详情
1 . 数据湖构建·Data Lake Formation 基于DLF+EMR的云原⽣数据湖 构建、管理与分析 姓名 嵩林· 阿⾥云 / ⾼级技术专家
2 . 数据湖构建·Data Lake Formation 01 什么是数据湖 02 CONTENT 数据湖架构的问题与挑战 ⽬录 >> 03 阿⾥云云原⽣数据湖体系 04 基于DLF+EMR的云原⽣数据湖构建、管理与分析
3 .01 什么是数据湖 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途
4 . 数据湖构建·Data Lake Formation 什么是数据湖 ? HDFS/OSS/S3 ? Data Warehouse ? Delta Lake/Hudi/Iceberg
5 . 数据湖构建·Data Lake Formation 什么是数据湖 A data lake is a system or repository of data stored in its natural/raw format,[1] usually object blobs or les. A data lake is usually a singl store of data including raw copies of source system data, sensor data, social data etc [2] and transformed data used for tasks such as reporting, visualization, advanced analytics and machine learning. A data lake can include structured data from relational databases (rows and columns), semi-structured data (CSV, logs, XML, JSON), unstructured data (emails, documents, PDFs) and binary data (images, audio, video). [3] A data lake can be established "on premises" (within an organization's data centers) or "in the cloud" (using cloud services from vendors such as Amazon, Microsoft, or Google). A data lake is a centralized repository that allows you to store all your structured and unstructured data at any scale. You can store you data as-is, without having to first structure the data, and run different types of analytics—from dashboards and visualizations to big dat processing, real-time analytics, and machine learning to guide better decisions. Azure Data Lake includes all the capabilities required to make it easy for developers, data scientists, and analyst to store data of any size, shape, and speed, and do all types of processing and analytics across platforms an languages. fi d s a r e
6 . 数据湖构建·Data Lake Formation 什么是数据湖 Keywords: BI/MachineLearning/Data Warehousing/Adhoc/… centralized repository semi-structured/unstructured/structured 01010101010010101010101100101 统⼀存储 010101010100101010101010101 data as-is/raw data 结构化/半结构化/⾮结构化 0101010100101010101 support different types of analytics 01100101010101 ⽇志/数据库/图⽚/视频/…
7 . 数据湖构建·Data Lake Formation 什么是数据湖 Why Data Lake? 有数据 ⽤数据 数据爆发性增⻓ 很难快速明确数据的实际需求 + 灵活⽀持各种分析场景 数据源/数据类型越来越多 原始数据先放到数据湖,后续⽀持多场景分析
8 . 数据湖构建·Data Lake Formation 什么是数据湖 Data Lake Architecture Data Machine Adhoc … Warehousing Learning 数据分析 BI/MachineLearning/Data Warehousing/Adhoc/… 结构化/半结构化/⾮机构化 010101010101101100101 数据格式 01010101010101100101 Data Lake 0101010010101100101 01010010101100101 HDFS OSS … 数据存储 Data Lake ⼊湖 ⽇志/数据库/图⽚/视频/… app server IOT database 图⽚/视频 logs logs 数据源
9 . 数据湖构建·Data Lake Formation 什么是数据湖 HDFS/OSS/S3 数据湖存储 Data Warehouse 数据湖上层应⽤场景 Delta Lake/Hudi/Iceberg 数据湖格式
10 . 02 数据湖架构的问题与挑战 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途
11 . 数据湖构建·Data Lake Formation 数据湖架构的问题与挑战 Data Machine 产品化: Adhoc … Warehousing Learning ⼊湖 ⽀持多数据源⼀键⼊湖 数据分析 数据源太多,⼊湖开发成本⾼ ⽀持⾃定义⼊湖预处理 Delta/Hudi/Iceberg等 数据质量⽆法保障(脏数据) 数据湖格式 结构化/半结构化/⾮机构化 数据格式 数据存储 云上对象存储: 数据量增⻓,考虑成本/扩展性/性能 冷热分层/缓存加速 HDFS OSS … 数据分析 数据存储 元数据发现/统⼀元数据管理/ 缺乏元数据管理,分析困难 多引擎对接 Data Lake 安全/治理 认证/权限/数据治理 app server IOT database 图⽚/视频 logs logs 数据源
12 . 03 阿⾥云云原⽣数据湖体系 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途
13 . 数据湖构建·Data Lake Formation 阿⾥云云原⽣数据湖体系 云原⽣数据湖体系⽩⽪书 https://developer.aliyun.com/topic/download?id=900
14 . 数据湖构建·Data Lake Formation 阿⾥云云原⽣数据湖体系 数据湖存储 OSS: 海量弹性: 计算存储分离,存储规模弹性扩容 ⽣态开放:对Hadoop⽣态友好,且⽆缝对接阿⾥云各计算平台 ⾼性价⽐:统⼀存储池,避免重复拷⻉,多种类型冷热分层 更易管理:加密、授权、⽣命周期、跨区复制等统⼀管理 数据湖格式: Delta Lake/Hudi/Iceberg ⽀持实时⼊湖,读写快照隔离⽆脏读 ⽀持数据更新/schema演化 数据布局/索引增强分析性能
15 . 数据湖构建·Data Lake Formation 阿⾥云云原⽣数据湖体系 数据湖构建 DLF(Data Lake Formation数据湖构建): ⽀持多种数据源模板降低⼊湖成本 ⽀持实时/离线⼊湖 ⽀持⾃定义⼊湖预处理 统⼀元数据管理/元数据发现 多引擎对接 ⽀持库/表/列权限控制
16 . 数据湖构建·Data Lake Formation 阿⾥云云原⽣数据湖体系 数据湖加速 JindoFS ⽀持多种开源引擎, 深度集成引擎优化 ⽀持cache/block两种模式
17 . 数据湖构建·Data Lake Formation 阿⾥云云原⽣数据湖体系 数据湖分析 存储计算分离 开源⽣态Spark/Hive/Presto MaxCompute湖仓⼀体 数据湖实时分析/机器学习/交互式分析
18 . 04 基于DLF+EMR的云原⽣数据湖构建、管理与分析 Apache Flink 中⽂学习⽹站: ververica.cn © Apache Flink Community China 严禁商业⽤途
19 . 数据湖构建·Data Lake Formation 基于DLF+EMR的云原⽣数据湖构建、管理与分析 oss 元数据发现 ots Data Lake Catalog Spark/Hive/Presto database EMR分析 sls 数据⼊湖 ⼊湖作业 JindoFS (预处理) oss Delta/Hudi/ kafka parquet/orc/… … DLF
20 . 数据湖构建·Data Lake Formation 基于DLF+EMR的云原⽣数据湖构建、管理与分析
21 . 数据湖构建·Data Lake Formation 基于DLF+EMR的云原⽣数据湖构建、管理与分析
22 . 数据湖构建·Data Lake Formation 加⼊数据湖构建产品交流钉钉群 关注数据湖技术微信公众号