- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
第三代指标平台加速能力解析
展开查看详情
1 .第三代指标平台 加速能力解析 张乐|Aloudata CAN 指标平台技术负责人 2024/04
2 .目录 Contents 1. 企业对指标平台的需求与痛点 2. 指标平台核心加速能力解析 3. 指标平台未来规划与展望
3 .企业对指标平台的需求 报表/驾驶舱 算法平台 实验平台 数据消费 指标生产 指标管理 指标分析 指标消费 规范化 标准化 配置灵活 权限管理(行列) 维度管理 指标分析的灵活性 性能 多方式消费(API/JDBC/MQL) 生产即治理 统一语义模型 指标多版本 指标变更 多级维度下钻 BI可视化 归因分析 指标预警 时效 数据存储 关系型数据库 湖仓数据 API 数据
4 .指标平台面临的问题 & 痛点 同名不同义 指标查询性能慢 指标口径不一致 口径 多表关联、数据量大 定义入口分散 问题 以语义模型为基础,定义不 同的指标和维度进行分析 多维度 多指标 跨数据集 多层次 指标定义 指标加速 定义 效率 困难 问题 复杂指标难定义 指标研发效率低 计算资源消耗大 数据时效无法保障 本年至今年月日 IT 人员成为瓶颈 重复计算、复用 准点看数等问题 均值最大值 取数等一周 率低等
5 . 基于指标要素化理念,抽象有限的原子指标,实现无限的派生指标覆盖 指标定义目标 指标定义方法 指标定义能力 语义模型 指标标准化的“定义覆盖度”直接决定了指标平台业 维度表 维度表 务的“需求满足度” 一次定义,处处复用 事实表 派生指标定义支持 一次定义、多次复用, 时间智能 LOD & 窗口 跨事实转化 一处修改,处处生效。 维度表 维度表 时段累计 多层聚合 同期群 e.g. 本年至今年月日 e.g. 近 30 天下单人数 e.g. 留存率、复购率 均值最大值 时间平移-同环比 窗口计算 漏斗类 e.g. 贷款余额比月初 e.g. 店铺销量排名 e.g. 领券开卡率 原子指标 维度 一个指标,多维分析 累加、半累加、不可累加 维值映射、指标转维度 原子指标定义支持 指标支持从多个维度 进行层层深入的分析 可累加指标 半累加指标 不可累加指标 派生指标 e.g. 放款金额 e.g. 期末存款余额 e.g. 开卡用户数 原子指标 + 统计周期 + 业务限定 + 衍生方式 (多层) (指标结果转业务限定)
6 . Aloudata CAN 指标平台定义核心能力 1 2 3 4 5 6 基于数据模型的 基于函数体系灵 基于多层次多聚 基于指标要素构 基于指标定义对 基于内存计算引 标准化指标定义 活进行指标定义 合构建依赖 DAG 建查询 SQL SQL 进行优化 擎提升查询效率 • 构建数据模型 • 通用函数体系 • 基于复杂指标构建 • 指标要素转计算 • 内存计算分析器 • 基于指标计算的优化 文本、数学、时间、聚合 指标复杂度评估体系、 构建数据逻辑关系 多层次的依赖 DAG Node 模型关系关联键筛选下推、 逻辑函数等 RBO/CBO 拆分、DAG • 统一指标要素 • 窗口函数体系 • 基于 Node 定义统 AGG 合并、查询裁剪等 等 原子指标/时间限定/业务 排名、累计、位移、滑动 • 内存计算路由器 限定/衍生方式/维度 一的查询要素 • 基于计算 Node 构建 • 基于 RBO 进行优化 等 任务管理、任务提交、队 完整 SQL Limit 下推、子查询裁剪、 • 指标要素组合 • 分析函数体系 列管控等 预聚合函数、计算调节函 • 多聚合依赖关系构 列裁剪、筛选下推等 • 内存计算执行器 派生指标=原子+时间限 定+业务限定+衍生方式 数、快速计算函数等 建 计算算子执行、缓存机制 等
7 .小结:Aloudata CAN 指标平台核心能力及目标 1 复杂指标能够被定义 Aloudata CAN 2 复杂指标能够被计算 & 加速 指标平台 复杂指标能够性能好、成本低、时 3 效有保障
8 .基于物化视图构建指标查询加速与性能保障 物化视图回收 根据物化视图使用情况以及节点 04 依赖关系进行物化视图的回收 物化视图命中与改写 物化视图 03 根据用户的查询以及已有的物 化视图来进行匹配改写 策略 指标加速 物化视图调度更新 02 根据物化视图 DAG 依赖关系 进行物化视图的调度以及更新 物化视图的构建 01 基于用户的指标、维度、筛 选、分区范围等构建物化视图
9 .Aloudata CAN 物化视图架构 构建 数据源 语义模型 数据应用 自建应用 物化方案配置 分析簿/分析视图 BI 分析工具 MySQL 模型定义 指标定义 (管理驾驶舱) 数据集元数据 聚合方式 时间限定 指标 维度 查询 配置 Oracle 构建 数据集模型关系 业务限定 衍生方式 筛选范围 调度周期 物化视图 转换 物化视图构建 Hive 元数据 物化视 物化/查询 Node 物化视图元信息 物化视图命中 图回收 PostgreSQL 物化视图改写 任务注册 SQL 查询 CSV/Excel 任务调度与管理 MPP 计算引擎 任务触发方式 数据回刷 任务执行状态管理 任务提交 HDFS 任务 DAG 管理 任务队列 任务监控告警 Apache Doris SelectDB 其他 …… 数据读取/写入
10 .Aloudata CAN 物化视图构建 针对对查询性能要求极高的场景, 如报表结果可视化等 维度 指标 分区 范围 结果物化视图 筛选 物化周期配置 物化加速方案 复杂指标整体加速 针对较为复杂的指标进行整体加速, 物化加速策略 如近一年月日均 AUM 最大值、 北向资金净买入额行业排名 Node8 行间偏移物化视图 基于派生指标定义构建行间偏移 Node7 Node10 物化视图,如近 30 天销售总额 普通聚合物化视图 Node6 Node9 基于原子指标定义构建普通聚合 物化视图,如天粒度订单总金额 Node4 Node5 星型模型 Node1 Node2 Node3 以语义模型为基础,基于指标和维度查询组合来生成星型模型
11 .Aloudata CAN 物化视图构建 加速粒度可调 可基于实际需求(性能、成本)做 到动态可调节的加速粒度 结果 复用性 灵/活性逐步提升 物化视图 性能逐步提升 中间节点可复用 复杂指标整体物化视图 基于物化视图构建物化视图,实现 行间偏移计算物化视图 中间节点的复用性,节省计算资源 和成本 普通聚合物化视图 动态 DAG 任务调度 自动化宽表/星型模型 基于物化视图动态构建任务 DAG 依赖树,避免计算资源的无效消耗 事实表 维表 维表 事实表
12 .集成最佳数据工程实践的物化加速策略 1 冗余维度打宽 2 同事实同实体合并计算 3 长周期依赖短周期 用户表 物化表 T1 物化表 T4 物化表 T5 维度:日、地区、城市... 维度:日、地区、城市 维度:月、地区、城市 订单表 商品表 物流表 指标:订单笔数、订单人数 指标:近 1 日订单笔数 指标:当月订单笔数 门店表 物化表 T2 维度:日、商品 ID、品类.... 指标:订单笔数、订单人数 4 细粒度上卷聚合计算 预打宽:根据语义数据模型,将常用 的维度与明细事实表进行关联打宽 物化表 T3 物化表 T6 物化表 T7 订单宽表 物流宽表 维度:日、商品 ID、品类.... 维度:a、b、c、d 维度:a、b 指标:发货订单数 指标:近 1 日订单笔数 指标:近 1 日订单笔 数
13 .Aloudata CAN 物化视图依赖调度 数据源 平台核心能力 1 Table A Table B Table C 自动化响应 无需构建复杂的 ETL 链路,以 自动化替代人工响应海量需求 1:N N:1 DataSet A DataSet B DataSet C 2 智能化编排&调度 维度 1 指标 1 指标 2 维度 2 实现预计算与即时计算的动态 自适应编排与调度 物化视图 1 物化视图 2 物化视图 4 物化视图 5 3 自我迭代 具备自动的动态更新能力,越 物化视图 3 物化视图 6 物化视图 7 用越快,越用越省 物化视图 8
14 .Aloudata CAN 物化视图命中 User APP BI 当前 Node 是否满足整体 是 是否存在多个可匹配的物化视图? 匹配物化视图命中? Query 否 当前 Node 是否满足行间偏 Aloudata CAN Server 移物化视图命中? 选择最优的物化视图(维 否 度相似、数据范围小、日 期粒度接近等) 当前 Node 是否满足普通物 查询转成 Node DAG 化视图命中? 否 基于命中的物化视图 当前 Node 是否满足星型物 查询 化视图命中? Node 遍历 否 基于原始数据查询
15 . Aloudata CAN 物化视图更新 Sensor Sensor Sensor Sensor MV A MV B MV C MV D Dimension Dimension Dimension Dimension Analysis View Analysis View Source Source Source Source (A) (B) (1) (2) (3) (4) DataSet DataSet DataSet DataSet (1) (2) (3) (4) Fact DataSet Atom Metric Sensor Source (A) (A) (A) Derived Metric Fact (A) DataSet Atom Metric Sensor Source (B) (B) Composite Metric (B) (A) Fact DataSet Atom Metric Derived Metric Sensor Source (C) (C) (B) (C) Fact DataSet Atom Metric Derived Metric Sensor Source (D) (D) (C) (D) Composite Metric (B) Fact DataSet Atom Metric Derived Metric Sensor Source (E) (E) (D) (E) 构建基于指标血缘的网络算子图谱,可基于单个维度/口径完成版本级数据的刷新
16 .Aloudata CAN 物化视图成本时效优化 �� = ℎ� × �� − �� − �� × �� 核心目标: 单次使用收益 单次构建成本 基于查询热度和成本收 mv� : 当前有效物化视图集合中的某一个物化视图 益回收低效物化视图以 及对中间节点的物化视 �� :mv� 的收益 图进行合并,减少物化 ℎ� :mv� 在未来一段时间被使用的次数,如未来 1 天 视图的计算浪费以及保 �� :mv� 的构建成本,即 build cost 障物化视图的构建时效 �� :mv� 的消费成本,如 scan cost,通常是底层可复用的 Node 的计算消耗 �� :mv� 在未来一段时间内的构建次数,时间窗口与 ℎ� 一致
17 .总结:基于指标智能化的进行物化视图的构建、更新以及回收 基于指标的查询物化加速场景 冷启动加速 智能加速/治理 统一查询请求 人工指定待加速指标/维度 基于指标的查询行为策略、采集对应的元数据 基于配置的指标/维度进行加速 不同场景下的输入均以指标/公式为基础 结构化查询体生成 计算列的 DAG 构建 查询组的 DAG 构建 生成统一结构化查询体 物化视图的构建、命中以结构化查询为基础 物化视图元数据采集 物化视图推荐 物化视图构建 物化视图命中 物化视图回收 物化任务调度 • 结构化信息 • 物化视图构建策略 • 指标公式按计算范围合 • 物化视图索引 • 回收策略 • 任务 DAG 依赖调度 • 性能信息 • 物化视图执行计划 并分组 • 物化视图优先级排序 • 回收评估 • 增量调度 • 物化历史信息 • 物化视图配置 (谓词数更小、谓词范 • 回收触发 • 定时周期性调度 • 构建物化视图索引信息 围更小) • 人工刷新(数据回刷) • 命中校验、等价改写 MPP 计算引擎
18 .总结: Aloudata CAN,定义即生产的自动化指标平台 看得懂 100% 指标口径一致 基于强大的语义建模和指标要素 口径清晰,权责明确 配置化定义,系统自动进行“同 名不同义、同义不同名”的校验 链路可视,变更可查 开发周期从周缩短到分钟 无需开发宽表与汇总表 管得住 实现指标自动物化加速 实现“定义即生产” 一处定义,处处使用 降低指标沟通成本 一处变更,处处生效 实现指标业务语义的统一沉淀, 提供指标血缘和指标多版本功能, 清晰呈现指标加工链路和历史变 用得好 更记录 一个指标,多维分析 一个指标,多场景消费 一个指标,灵活筛选 提供 API、JDBC 标准化接口, 实现“一个指标,多场景消费”
19 .总结: Aloudata CAN 核心优势 性能 通过预聚合的方式,基于不同的指标维度 组合来实现查询性能的提升。 成本 包含计算成本和存储成本,通过理解用户 指标定义意图以及查询使用频率等元信息, 通过构建物化视图可以减少数据计算次数 以及计算数据量。 时效 指标加速 通过对中间计算节点的合并,实现物化视 图数量的减少以及降低层次依赖,缩短数 据准备时间。 策略 NoETL 的理念离不开物化视图构建的策略 以及 ETL 加工经验,通过内置多种策略来 保障指标平台的查询性能、成本以及指标 查看的时效。
20 .第三代指标平台:ETL 人工开发汇总表 -> NoETL 自动化 数仓应用层 NoETL,做“轻”数仓 语义化 自动化 强大的指标定义能力 自动的指标开发 强大的语义模型和函数能力,复杂指标实现配置化定 基于自研的物化加速引擎,IT 无需开发宽表与汇 义,实现数据加工者与消费者隔离,做轻数仓 总表,系统自动编排、物化与回收数据
21 .总结: Aloudata CAN 整体机制 AI BI Biz Decision Systems SQL 其他 Consumers Rest API、GraphQL、JDBC、ODBC、SDKs Data Sources Data Storage and Compute Metrics Store Data Analytics Dimension Metric Managerment Product Systems Original Dimension Atom Metric Analysis View Enterprise Apps Custom Dimension Derived Metric Web / Log Events Dimension Values Composite Metric MQL (Metric Query Language) Data Thrid Party / File Models and Relations Orchestration
22 .指标平台未来规划与展望 用户 数据源 权限 指标 维度 分析 归因 服务 指标 Copilot:结合大语言模型能力,通过自 然语言对话完成围绕业务指标的自助取数、 指标定义能力 API 开放 归因洞察、波动预警、分析报告生成等,降 低业务用数门槛,帮助业务快速理解业务现 行、列过滤 模型构建 维度、度量定义 指标计算 JDBC 查询 状、确定根本原因以及做出正确的决策。 语义化扩展:依托强大的语义表达能力,持续 客户模型 订单模型 营销模型 …… 增强复杂指标的定义能力以及提升指标计算性 能,实现复杂指标定义简单且计算高效的目标 统一且灵活的语义模型 明细物化 星型物化 聚合物化 结果物化 物化策略中心:基于用户创建的指标和物化方 案,自动编排、物化和回收数据管道,免除 ETL工程师大量繁琐的开发、运维和治理工作, Pr oject Pr oject Pr oject Ag gr egat ion Ag gr egat ion Ag gr egat ion Join Join Join 亿级数据秒级响应 Scan Join Scan Aggr egat ion Join Join Scan Filt er Join Scan Filt er Scan Filt er Scan Scan Filt er Scan Scan Scan 物化加速引擎
23 .直播预告
24 .Aloudata CAN 预约试用
25 .Thank you. zhiyi.zhang@aloudata.com