- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
金融大数据平台实践-廖晓格
廖晓格-平安银行数据及AI平台团队负责人
平安银行数据资产管理及研发中心/数据及AI平台团队负责人,大数据及AI领域资深专家,十多年大数据及AI平台研发经验,曾在pptv、ebay、携程、华为负责大数据平台研发及优化工作,开源领域爱好者、熟悉Hadoop生态、kubernetes开源生态和架构设计、精通大数据相关组件技术,承担大数据基础平台、数据中台及AI平台建设等重要项目。
分享介绍:
金融数据体系极其复杂,内部关系错综复杂,伴随着业务数据越来越多,数据全民化意识越来越强,对安全、质量、效率、稳定性都有极高的诉求,并且成本管理意识也越发重要,如何提升大数据平台整体ROI成为核心命题,本次分享主要分享大数据平台优化实践,安全设计,成本管理及平台未来规划。
展开查看详情
1 .金融大数据平台实践 廖晓格- 平安银行数据及AI平台团队负责人 1
2 .目录 1、金融大数据的问题及挑战 2、金融大数据平台 3、未来展望 2
3 .金融大数据的问题及挑战 3
4 . 大数据服务应用状态缺乏必要的监控和告警 各业务的数据存在孤岛 数据多分存储,加大数据成本 PB级别大数据海量存储和计算,造成极高的负载,影响系统稳定性 大数据测试数据难造,生产数据脱敏到测试环境又有安全隐患 数据流量洪峰不断刷新记录,如何提升实时化能力 虽然提供了各种线上平台和工具,但思维和动作还未全面数据化 安全 提效 降本 4
5 .金融大数据平台演进 5
6 .大数据整体产品架构 口袋A、行员A、网银 进线、线下、微信/支付宝、智慧财务、智慧经分、赢家APP、PB展业、智数银行、IOT、VR 零售 对公 交易银行 资金同业 运营 所有的平台都建设在统一的 大数据云原生基础设施之上 BICloud(统一BI工具) OneService AICloud(统一AI研发平台) 数据资产管理 DICloud,包括数据集成、 可视化看板 数据管理服务 推理中心 资产地图 数据研发和指标研发,数据 服务我们建设了OneService; AI看板 API集市 模型中心 资产分析 BICloud,包括可视化看板、 智能BI和自助分析; API配置发布 建模中心 自助分析 资产运营 AICloud包含了建模全流程的 智能BI 数据源管理 特征中心 能力,特征中心、建模中心、 数据治理 模型中心和推理。 DICloud(统一数据研发平台) 数据资产管理集数据安全、 数据集成 数据研发 指标研发 数据安全 数据治理、资产运营、资产 地图为一体,是全行的数据 资产管理中心。 大数据云原生基础设施 6
7 . 大数据基础平台架构 离线数仓Z+ 实时数仓F+ 数据分析AICloud B+潘多拉指标体系 统一元数据 • 统一元数据视图,兼容 HiveMetaStore 可视化界面 Adhoc SAS Jupyter • 支持Spark、Flink、starRocks、 Presto分析引擎 • 支持跨源分析能力,直接查询Kafka、 Grafana Nagios Mysql、starRocks数据源 统一SQL引擎Router/统一权限/统一脱敏 • 基于统一元数据的,流批统一建模能 力 离线计算平台 交互式查询引擎 实时计算平台 统一血缘 ZooKeeper Hive Spark Kylin Presto StarRocks Flink MR Spark Streaming • 支持表、字段级血缘 YARN 统一存储 Prometheus Ganglia NoSQL存储 • 湖表存储格式:Iceberg • 存储:hdfs HDFS\Iceberg Hbase/ ElasticSearch MongoDB 统一SQL引擎 • 统一SQL分析,支持SparkSQL/Presto/ KDC/Kerberos Kylin/Starrocks多引擎,统一权限 • 统一数据安全,对数据进行动态脱敏 7
8 .实时数据湖|批流一体架构 引入数据湖存储Iceberg,提升数据时效,解决批流一体,保证特征口径一致性,主要应用在数据实时入湖、实时特征、实时报表等应用场景。 数湖开发工具 数 实时数仓开发工具 实时数据湖,数据时效从T+1到T+0 据 • 数据实时事务更新 分 批流分析引擎 • 流批统一的写入和读取(实时、增量、批量三种数 析 Flink Presto Spark 据读取,写入),分钟级延迟 统一元数据管理 • 基于快照的读写,支持版本回溯和回退 数 统一元数据服务 统一权限管控 • 实时表结构变更 湖 批流一体存储 存 数湖存储 • 统一批流元数据,统一批流权限管控 批流统一存储Iceberg(批流统一schema) 储 • 统一存储引擎(HDFS) 分布式文件系统HDFS • 统一存储介质 • 自动小文件合并 批流一体分析 • 一份数据支持批流一体,简化数据分析架构 • 一张表同时支持批流处理场景,批场景支持事务更 新操作,支持复杂交互分析,流场景支持实时增量 消费,数据分钟可见 8
9 .底层平台升级效果 Hadoop&Metastore Spark升级 冷热数据管理 RBF Waggle-dance 优化 1. 制定自动化升级策 1. 全年总计上线23个 1. 生命周期清理程序 1. 解决HDFS 1. 提前解决hive 略,开发数据对比工 补丁,修复异常bug, 增强,兼容多集群 Namenode扩展性问 metastore的水平扩 具,确保升级的稳定 提升性能,增加功能 题 展问题 性,无数据质量问题 特性 2. 上线冷表清理程序, 包括一键恢复功能 2. 自研补丁,做到上 2. 对开源版本进行了 2. 升级过程,对用户 2. 优化了yarn的调度 线对用户透明 自研优化,增强了功 完全透明,过程中自 性能和namenode的 3. 迁移热点数据到独 能 动发现问题,总共修 锁的性能 立集群 3. 制定了复杂的上线 复80多个patch 过程,做到了灰度化 CPU消耗降低了23% Yarn调度效率关键指标 分区清理94PB数据 改造代码,读QPS从 通过压测对比,确认了 从20ms降低到2ms 25000/s -> 80000/s 增加代理层的性能损失 运行时间减少了 Metastore Api的95线 冷表清理15PB数据 在10%以内 53%(hive -> spark3) 从10s降低到了3s 提升计算性能 节约存储成本 解决扩展性问题 9
10 . 安全设计基本原则 数据是企业的核心资产,数据安全是企业的生命线,构建基本原则守住底线,用好数据。 不影响开发人员正常使用 符合安全合规的脱敏规范全覆盖 仅针对银行安全规定开发人员不可见的敏感字段进行脱敏, 系统根据安全合规部门规定的规则扫描数据,以确定数据是 而对统计类的数据并没有做脱敏操作,满足了绝大部分开发 否需要脱敏。符合脱敏规定的字段,引用该字段的所有表的 相关列也会被标记,全面覆盖了大数据平台中的所有表。 人员的需求。 不对效率性能造成影响 多维度立体数据安全 在进行数据脱敏时对性能影响降到最低,开发人 针对数据的列、行、操作类型,分别制定了脱敏, 员几乎感觉不到性能的变化。 敏感客群、智能阻断功能有针对性的进行敏感数 据安全保障。 10
11 .大数据安全设计 从事前、事中、事后分别管控数据安全。以“事中数据脱敏”为例,是通过在SQL/作业埋点用户帐号,分析SQL/Job对应的元数据字段, 判断用户权限,返回用户对应的脱敏数据。 事前 事中 事后 事中技术管控:采用 “数据加密”、“数 事前制度建设:数据安全“制度”先行,为 事后监控审计:基于规则引擎建立数据访问 据脱敏”、“敏感客群保护”、”智能阻 此我行修改制定了 “平安银行数据安全管 审计平台——实时的\自动+人工的识别可能 断”、“数据外发”等手段构筑强固的数据 理办法(2.0版,2019年)”; 的异常访问; 安全保护伞; 客户端 SAS Adhoc 调度平台 AI算法平台 Jupyter SQL / Job 统一SQL引擎Router 血缘分析 元数据管理 权限管理 脱敏引擎 安全决策引擎 大数据 平台 大数据SQL计算引擎 HIVE Spark SQL Presto Kylin 11
12 . 数仓分层加密处理过程 • ODS 贴源层(raw):敏感字段识别,利用 正则+算法+人工,识别出贴源数据表的敏感字段。 • ODS 加密层(mid):高敏感字段加密,将银行卡号,手机号,证件号进行加密储存。 • 数仓、集市等层:利用字段级血缘关系,标识出每张表敏感字段。 • 数据查询访问:应用端查询数据时,对统一查询中心(router),根据访问的敏感字段及敏感脱敏类型进行脱敏处理。 应用 报表指标库 标签 接口 私库 一致性维度 DIM 公共库 (BU) 指标 (对外服务) (基本法) 数据建设组织过程 数据产出流转过程 集市 风险DM 财务DM 信用卡 消金 汽融 对公DM DM DM DM 仓库 数据 信用卡 消金 汽融 对公DW DW DW DW 信用卡 消金 汽融 数据 操作 MID MID MID 对公MID 贴源层 RAW 数 据 银行数据 外部数据 加密层 源 12
13 .敏感数据发现流程 源生产系统数据集成过程中,无论实时或者离线采集,开发治理一体化平台基于数据规则自动实现敏感数据发现; 采集表A Cert_no email name 310000199001101234 zhangsan@pingan.com.cn 张三 算法识别:利用大规模语料学 习标注模型,可快速识别文本 中的实体 规则库 数据表A 1 数据表B 2 身份证规则: 字段名 安全标识 数据自 √ ([1- 字段名 安全标识 9]\d{5}(18|19|([23]\d))\d{2}((0[1- Cert_noe 身份证 动识别 9])|(10|11|12))(([0-2][1- 9])|10|20|30|31)\d{3}[0-9Xx]) Email 邮箱 √ 字段血缘分析 字段1 身份证 √ CHILD_C 子女数量 √ 字段2 邮箱 √ 邮箱规则: ^[a-zA-Z0-9_-]+@[a-zA-Z0-9_- 3 NT ]+(\.[a-zA-Z0-9_-]+)+$ 人工 标识 白名单数据环境 识别说明 4 识别环节1,数据识别:依据预定义规则库+命名实体算法服务自动识别敏感信息; 人工 数据表A 数据表B 识别环节2,血缘分析:依据上游字段的安全标记,下游字段自动继承; ……. 复核 识别环节3,人工复核:开放白名单数据环境,数据标准由人工进行复核确认; 13
14 .基于元数据的字段加密方案 通过元数据标记、底层执行过程中即时加密的方式,兼顾数据安全的同时,提升处理效率。 以Spark为例 编译阶段:调用元数据获取 元数据信息 编译阶段 3 运行阶段 4 PostExecutionHook阶 段 加密信息,给FileScanRDD增 1 读取 表元数据 DataSourceScanExec Executor1 判断 加PartitionFile加密信息 处理 是否有写操作 执行阶段:DAGScheduler 分区元数据 2 生成 Executor2 处理 把stage的task分发到 更新 字段元数据 FileScanRDD Executor3 分区元数据 Executor,FileFormat根据 包含加密信息 处理 PartitionFile的加密信息数据 加密方式 5 更新 任务执行完成后,根据执行 血缘关系 PartitionFile 计划,计算字段血缘并更新 HDFS PartitionFile PartitionFile …… (加密) 元数据表分区加密状态 5 更新 14
15 .基于元数据的加密方案(举例) FileSourceScanExe 1 从元数据获取客户表字段加密信息 客户表 c inputRDD 字段名称 加密算法 2 createRdd的过程中, CUST_NO IDX 把加密信息设置到PartitionFile中 CUST_LAST_NAME FAKENAME PartitionFile …… …… CUST_NO IDX加密 CUST_LAST_NAME 增加属性:encryptState,保存表分区的路径对应的字段加密信息 FAKENAME … CUST_TYPE Executor hdfs://pabfs/user/hive/warehouse/fact.db/cust_info/dt=20221001 launchTask 读取文件过程中根据加密数据加密 { “tableName”: “cust_info”, “dbName”: “fact, Spark Driver 3 序列化Task发送到Executor中执行 readFile的function封装在了Task中,Driver端 “partitionName” : “dt=20221001”, “fields”: [ { Executor “name” : “cust_no”, “encryptor”: “IDX”, launchTask 读取文件过程中根据加密数据加密 “currentEncState”: “PLAN_TEXT” } , { 4 执行 5 客户表 “name” : “cust_last_name”, PostExecutionHook 更 字段名称 加密算法 当前加密状态 “encryptor”: “FAKENAME”, 新 “currentEncState”: “PLAN_TEXT” PostExecution CUST_NO IDX IDX 元 } Hook 数 CUST_LAST_NAME FAKENAME FAKENAME ] 据 CUST_NO IDX PLAN_TEXT } 15
16 .数据分析安全屋-沙箱环境 构建支持数据开发全流程的沙箱环境,确保与生产库分离,只进不出, 数据采样。 既满足应用系统的沙箱环境数据探索需求, 同时提升数据 研发使用效率。 数据融合规划 场景 可有效解决类似3L数据融合、公私联动融合分析等数据类场景 原则 开发分析 批流开发平台 Aicloud数据分析 Adhoc即席查询 平台 数据生产环境 数据沙箱环境 √ √ x 沙箱数据只进不出 分析应用相互隔离 A模型结果 B模型结果 C模型结果 A模型 B模型 C模型 写出信用卡 写出资金同业 写出消金 输出 输出 输出 A结果 B结果 C结果 校验通过 校验通过 校验不通过 查看 查看 查看 融合 权限 环境 统一脱敏 统 一 权限 最小化申请 x 无需 统一脱敏 权限申请 业务 业务 信用卡 消金 资金同业 其他 数据 信用卡 消金 资金同业 其他 数据 统一SQL语义引擎 基础 生产YARN 沙箱YARN 资源 NoSql存储 HDFS/Iceberg Hbase/MongoDB/ES 沙箱HDFS 原则 16
17 .数据分析安全屋-沙箱环境 构建支持数据开发全流程的沙箱环境,确保与生产库分离,只进不出, 数据采样。 既满足应用系统的沙箱环境数据探索需求, 同时提升数据 研发使用效率。 1、沙箱环境 跑 2、生产环境 沙箱账 批 1 沙箱 数据源 沙箱作业 号写入 沙箱库 外部沙箱应用 沙 用户 脱敏/抽样/ 箱 保真/单向 环 2 生产 数据源 生产作业 外部生产应用 境 用户 生产库 分 无需 输出 算法平台 1 申请权限 (沙箱环境) 沙箱库 提供 析 分析用户 脱敏/采样/保 数据 真 沙 算法平台 判断 判断 脱敏引擎/ 执行 大数据SQL引擎 箱 权限管理 生产环境 权限 脱敏 采样引擎 SQL 用户 是否命中 环 日志 阻断规则 获取 数仓层 2 异步发送 脱敏字段 添加 血缘分析 境 KAFKA 脱敏字段 消息队列 安全决策引擎 元数据管理 标注 原始层 敏感字段 报 警 采集团队 17
18 . 统一数据研发平台架构设计 建设目标: 研发层面,基于湖仓一体存储,面向全行提供流批数据一体化的研发平台,覆盖从需求阶段-研发阶段-运行阶段-运营阶段,支 持业务BU模型开发;管理层面,集成架构治理规范、运行规范、跑批规范,实现数据和架构治理工具的平台化落地。 前端业务 经分 营销 风险 运营 监管报送 AI建模 核心能力 统一数据研发平台DICloud 统一需求管理 平台(starlink) 统一数据资 流批一体数据研发平台 指标研发平台 数据服务OneService 产平台 离线数据集成/模型开发 统一SQL语义层引擎 需求阶段 研发阶段 运行阶段 运营阶段 外部数据源 数据集成 数据加工 指标加工 API开发 测试/发布 资产全景 根据SQL自动计算依赖关系 统一智能调 作业血缘链 需求 度 路治理 数据源 测试用例 数据血缘 登记 注册 实时采集 批任务 Flink cdc 数据建模 API市场 全托管的自动调度 Spark 实时计算引 任务成本运 自动化 数据源 擎Flink 营中心 数据质量 维度/ 测试 管理 离线采集 资源隔离 流任务 需求 waterdrop 指标定义 Flink 自动化 数据质量检 指标盘点 评审 File 设计即 发布 业务图谱 支持开发测试一体 数据源 服务计量 测 (精品/kpi) 流批采集 流转批 研发 DB Flink cdc- Flink- 自动化 >Spark >Spark 指标物化 服务编排 部署 统一资源管 全链路 风险审计 需求 数据源 理Yarn 监控诊断 分发 架构治理 设计 质量 安全规范 指标上下架 数据服务化 流程 运行 安全标准 作业上线流程管理 规范 规范 规范 (包括权限) 规范 规范 规范 规范 跑批规范 权限审批 生产环境 沙箱环境 数据质量监控 流程管理 基础 设施 湖仓一体(Iceberg/hive ) 分布式文件系统(HDFS) Mpp存储 Nosql存储(ES/Mongo/Hbase) (Starrocks) 18
19 .AI中台总体架构 口袋A、行员A、网银、数字口袋、好链 进线、线下、微信/支付宝、智慧财务、智慧经分、赢家APP、PB展业、智数银行、IOT、VR 核心能力 AI应用 CV中台 NLP中台 机器人中台 推荐中台 决策引擎 基于Kubernetes构建AI推理服务 云原生应用管理平台,使用istio、 knative、KFServing等Serverless框 AI服务 AI聚合服务/AI总线(服务管理、服务编排、A\B测试、服务监控) 架以云服务的形式提供AI能力 AI云原生推理服务 统一模型全生命周期管理,实现 模型开发、模型验证、模型评估、 AI平台 智能标注 模型中心 模型上线、模型监控一体化管理 Notebook 可视化建模 自动化建模 场景化建模 建模 统一AI数据能力,沉淀核心高价值 可复用特征 样本中心 特征中心 AI数据 (非结构化数据) 向量中心 (结构化数据) 使用Kubernetes + Docker构建基于 容器的AI训练云平台,实现资源隔 离、弹性计算,多租户、自动化 算法框架(Tensorflow、Pytorch、Mxnet、PaddlePaddle、Spark ML、Horovod) 部署 AI底座 计算引擎 (Spark、flink) 隐私计算 容器云 (kubernetes) 对象存储 全行GPU资源的统一管理,利用 GPU并行运算能力为深度学习加速 基础硬件(CPU、GPU、FPGA、MLU) 19
20 .未来展望 20
21 . 逻辑数仓 - 从用户角度出发,基于数据使用情况自动化构建数据仓库 逻辑数仓以用户视角出发,以最大化数据价值和最优成本管控为目标,更敏捷响应用户需求,弱化繁琐的数据流ETL加工链路,让ETL工程师更专注企业通用模型设 计,节约存储成本和管理成本 逻辑ADS(数据应用层) 核心能力: 逻 辑 逻辑DIM 逻辑数仓层 数 逻辑DWS(数据轻力度汇总层) (维度层) 构建面向用户和下游应用消费的逻辑数仓层,将逻 仓 逻辑DWD(事实明细层) 辑表与物理表隔离,将物理表交给系统层优化 物理层智能调度 逻辑数仓物化引擎 透明数据ETL逻辑和物理存储介质,由逻辑层用户 物 行为和需求触发,实现数据生产链路的智能编排和调 x x x 理 DAG 1 DAG 2 DAG 度,针对重复、相似计算进行自动合并,下线或降权 层 1 2 3 无效、低频、低价值数据生产 T T TB TB T 性能自优化 1 2 1 2 基于用户查询行为实现自适应的查询性能优化,自 信用卡 消金 汽融 对公 动实现物化、缓存或构建Cube/索引 MID MID MID MID 从被动到主动的数据治理,实现“数 ODS 贴源层 RAW 据自动驾驶” 逻辑层基于业务需求快速调整,物理层自适应上层 批处理引擎 实时计算引擎 调整,识别数据核心资产元数据 21
22 .逻辑数仓 - 整体设计 改变数仓开发模式,让数据人员更关注业务开发,解决大数据平台成本暴增问题,让平台做到主动数据治理 用户 行为 逻辑数仓 DAG sql1 DAG sql1 DAG sql1 1 2 3 API查询 逻辑ADS 1 sql2 sql3 sql2 sql3 sql2 sql3 频次 (数据应用层) 标签 智能物化引擎 平 2台 执行计划DAG 优化后的执行计划DAG 物化视图 逻辑 DIM 查 逻辑DWS ( 维度层 ) 询 (数据轻力度 产 D E D E 规则 指标 T5 汇总层) 生 T3. 优 物 Z C A T4. F 化 C A/B F 化 B 特征 T2.C T2.C T2.C 逻辑DWD T1.C1 T1.C1 T1.C1 2 2 2 (事实明细层) … 报表 物理表&Mapping关系 Mapping ODS 逻辑 举例 T3(逻辑表) T4(逻辑表) T5(物理表) 映射 A … B … Z … 22
23 .23