- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
优化数据洞察力:StarRocks物化视图在现代化数据栈中的应用-董颖婷
董颖婷-镜舟科技产品经理,StarRocks 活跃贡献者
分享说明:
分享物化视图与现代数据架构的结合在数据处理和分析领域的应用。现代数据架构采用实时数据处理、多样化的数据源和复杂的数据分析需求,为数据驱动决策提供了强大的基础。物化视图作为一种预先计算和存储数据的技术,可以加速数据处理和查询操作,降低计算资源的使用,提供更高的查询并发能力。物化视图在现代数据架构中可以提供多源数据整合分析优化、降低数据访问成本,提升数据查询性能和优化数据建模的效率。通过物化视图与现代数据架构相互配合为数据处理和分析提供了更高效、更灵活的解决方案,对于实现数据驱动决策具有重要意义。
展开查看详情
1 .优化数据洞察力:StarRocks 物化视图 在现代化数据栈中的应用 董颖婷 - PM 1
2 .目录 01 现代数据栈与物化视图的关系 02 StarRocks 物化视图原理和优势 03 StarRocks 物化视图场景和案例 04 StarRocks 物化视图后续规划 2
3 .现代化数据栈的构成 Ingestion Data Warehouse Transformation BI & Visualization Orchestration Governance & Management 3
4 .物化视图在现代化数据栈中的作用 编排调度 • 触发式调度:数据导入后,自动触发上层物化视图刷新 • 周期性调度:创建时自定义调度规则,定时或周期性触发刷新任 务 • 手动触发:可以通过前台命令,手动触发刷新任务 查询存储 • 分区分桶:与普通表存储方式相同,支持分区分桶等表属性 • 直接可查:可以直接查询物化视图数据,无需拼装构建语句 • 性能与内表相同:继承内表各类优化,查询性能好 数据加工 • SQL 语法支持:构建时支持 join,窗口函数等各类复杂SQL语法 • 外表和内表:可以对如 hive、iceberg等外部数据源直接进行数 据加工 • 资源开销:支持资源组,算子落盘 4
5 .目录 01 现代数据栈与物化视图的关系 02 StarRocks 物化视图原理和优势 v03 StarRocks 物化视图场景和案例 04 StarRocks 物化视图后续规划 5
6 .StarRocks 物化视图的基本原理和优势 同步物化视图 优势 • 实时性:同步刷新 • 强一致:保障原子性 • 透明改写 劣势 • 只支持单表 • 基表只支持内部表 • 物化视图默认不可见 • 分区、分布键必须同基表一致 • 刷新全部历史数据才能改写 6
7 .StarRocks 物化视图的基本原理和优势 异步物化视图 优势 • 物化视图同基表解耦 • 支持多表复杂Query • 支持外部Catalog • 复用StarRocks内表优势 • 自动周期刷新 • 灵活调度,构建Pipeline 劣势 • 分区级别增量刷新 • 数据不实时 7
8 .StarRocks 物化视图的基本原理和优势 触发式调度 周期性调度 View MV 3 MV MV MV MV MV MV Table Table Table Table loading data loading data 8
9 .StarRocks 物化视图的基本原理和优势 完整的 SQL 语法支持 • Join • 聚合 • union • 窗口函数 • 字符串、日期函数 • order by 高效的刷新方式 • 只刷新最近的分区 • 排除某些表的变动 • 每次刷新的分区数量 • 基于变动分区的增量刷新 9
10 .目录 01 现代数据栈与物化视图的关系 v02 StarRocks 物化视图原理和优势 03 StarRocks 物化视图场景和案例 04 StarRocks 物化视图后续规划 10
11 .物化视图的使用模式 事前治理 事中治理 事后治理 提前通过物化视图进行分层构建 通过 VIEW 建模,按需构建 MV 直接查询原始表,MV透明加速 11
12 .物化视图的应用场景 数仓建模 外表物化视图 通过外表方式构建统一元数据 1 DWD 通过外表物化视图的方式对数据 分层构建 进行加工处理 2 DWS 使用逻辑视图或物化视图,对数 嵌套物化视图 据进行分层汇总,形成主题域 3 ADS 基于物化视图的结果按需进一 步重度汇总,形成 ADS 层 4 查询加速 查询自动改写,提升查询效率 12
13 .物化视图的应用场景 湖仓透明加速 冷热分层 物化视图TTL 存储近期热数据 冷数据全量存储在湖上 查询自动改写,冷热数据合并 透明加速 无须数据搬迁,按需构建物化视图 统一元数据管理,统一查询如果 透明加速,用户无感知 13
14 .案例:携程 Data Source Lakehouse Data Application HDFS/S3 数据入仓 查询分析 Data Application 直接查询 外表 Data Lake Kafka 湖上数据 物化视图 Table Sink Data Governnce 数据入湖 管控治理 Data lake Flink/Spark Hive\Iceberg\Hudi... 14
15 .案例:携程 2. If performance still can’t 1.Most SQLs query directly meet requirement HDFS\S3\OSS\COS Hive/Iceberg/ MV/insert into Native table/ Hudi/DeltaLake Materialized View 15
16 .案例:携程 85线从112.03s 降到 5.60s StarRocksHive查询规模 • 查询SQL已超过10W+ • 涉及BU 10+,owner 3000+ 85线从148.93s 降到 5.86s • 查询场景不同分别 3-10倍 提升 • 较Presto节省 5倍 服务器 16
17 .目录 01 现代数据栈与物化视图的关系 v02 StarRocks 物化视图原理和优势 03 StarRocks 物化视图场景和案例 04 StarRocks 物化视图后续规划 17
18 .物化视图后续规划 易用性 实时性 基于View的建模抽象 增量物化视图 支持ListPartition Binlog能力增强 Rolling Partition Refresh Schema Change 资源调度 自动化、智能化 Crontab调度 自动推荐、构建物化视图 自定义依赖关系 自动物化视图合并 Warehouse隔离 自动物化视图管理 ETL能力增强 数据血缘依赖 18
19 .物化视图的愿景 一个SQL语句完成批 用声明式的替代过程 简化 ETL 外表物化视图无需用 湖仓透明 户显示数据导入,透 批流一体 量刷新和增量计算 式,降低数据开发的 加速 明湖仓加速 门槛 19
20 . 多种数据源支持 Apache Doris、Druid、ClickHouse 70 一键轻松迁移 万 库表结构同步、数据迁移、数据校对 20
21 .21