数字时代大数据应用平台架构

数字时代大数据应用平台架构
展开查看详情

1.数字时代大数据应用平台架构 王葱权 普元信息技术股份有限公司

2.目录 1 数字经济时代需要新一代大数据应用平台 2 如何实现面向治理的大数据应用平台 3 面向治理大数据应用平台核心架构

3.颠覆企业业务的的数字经济时代 通过信息的获取和处理应对“多样性”的挑战,提供个性化定制和服务。 实体经济 数字经济 传统生产材料 信息要素 机器 土地 厂房 数据 流量 知识 设备

4.未来只有一种经济,数字化经济 Cumulative value to society and industry Cumulative (2016-2025, value to society and $billion) industry 1,669 Logistics (2016-2025, 1,891 $billion Electricity 804 586 Automotive 778 190 Oil and Gas 557 342 Consumer 383 1,158 Telecoms 323 675 Aviation,Travel and Tourism 148 73 Mining and Metals 118 146 Media 5 97 Chemistry and Advanced Materials 1 157 Impact to Society Impact to Industry

5.数字化时代,让企业从独立走向生态 佣金(便利交换) 构建住房服务综合服务生态 智慧社区综合服务平台 Commission-based models 房屋 监管 服务 监测 建设目标 居委会 智慧物管 买卖 分析 居民 智慧政务 物业 智慧社区服务平台 智慧健康 库房 公积金 托管 管理 业务效果 商家 住房生态圈 智慧商圈 业主 智慧租房 能力租赁(人、流程、物) 物业 维修资金 金融 智慧金融 服务 房改金融 业务管理 技术支撑 结算服务 Capacity-leasing models 公益教育综合服务平台 人工智能应用研发 目标 教师赋能、社会众筹、聚学扶志 智能投顾 智能客服 金融市场 营运 学历吸引、共享教学、扩展支教队伍 智能核身 订阅(产品、服务) 定价与交易 技术 智能风控 精准营销 亮点 机器人应用、人工智能、大数据分析 Subscription models 善行宗教事务管理服务平台 家庭健康管理服务平台 建设目标 以家庭 医疗服务机构 为单位 医院 数据货币化(free服务、sell数据) 以个人 为中心 增值服务 签约 基础医疗 公共卫生服务 社工服务机构 康复机构 Data-monetization models 树立向导, 产品创新 管服并举 有偿健康 药店 管理服务

6.数据成为企业生态化的基础 数字化 一体化 实时化 去中介化 知识化 实体到数据 数据的 实时数据 数据 数据到知识 的转换 共享交换 传输&分析 的服务 的转换

7.然而企业数据现状与应用方式不容乐观 核心数据资产不清晰 数据质量不高 业务开发难协作 数据应用无体系 哪些是我的 怎么使用? 数据需求 核心资产? ! 业务人员 数据管理员 数据 X 需求 企业管理者 业务人员 数据源 IT人员 大数据平台 数据结 果 难 难 难 难 难 实体到数据 数据的 实时数据 数据 数据到业务 的转换 共享交换 传输&分析 的服务 价值

8.企业需要面向治理的大数据应用平台 用 4 数据运营,为下游提供统一数据服务与管理 整 3 核心资产优化整合,为开发数据服务提供基础 规 2 基于核心资产,建立数据规范与体系 盘 1 盘点核心数据资产,提升数据可用性

9.什么是面向治理大数据应用平台 围绕“盘-规-整-用”体系进行建设的大数据应用平台 盘—数据盘点 规—数据标准 整—数据整合 用—数据运营 ① 盘点数据资产 ① 构建数据管理组织体 ① 依据数据模型,形成 ① 为下游系统提供统一 ② 梳理核心数据实体 系,数据认责 核心数据表 集成的数据服务 及元数据 ② 制定数据管理制度及 ② 依据数据流向和清洗 ② 数据安全控制 ③ 梳理数据流向 流程 整合规则,实现数据 ③ 数据运用分析 ④ 分析业务及数据问 ③ 定义核心数据数据模 采集和处理,落地数 题 型及数据流向 据中台 ⑤ 成熟度评估 ④ 制定核心数据数据质 量稽核规则,及清洗 整合规则

10.目录 1 数字经济时代需要新一代大数据应用平台 2 如何实现面向治理的大数据应用平台 3 面向治理大数据应用平台核心架构

11.已经有很多企业建设面向治理大数据应用平台 电信行业 … 重庆市人民政府 政府行业 航空行业 … … … 电力行业 大数据 制造业 应用平台 … … 保险行业 金融行业 能源行业 … …

12.标准、实时共享的保险业大数据应用平台 数据源 大数据应用平台 业务应用 官网 产险 官微 基础数据 协议数据 交互数据 寿险 智 产险 寿 实 官微 能 APP 险 时 客 / A 实时 寿险 服 批 APP P... /批 量接 关系数据 交易数据 资产数据 量 … P 入 服 务 …. .. 客群 管 分群数据 风险数据 管理数据 分析 … … 精准 数据管理 营销 … … 建设客户、渠道、资源的协同共享机制,形成融合发展

13.标准、实时共享的保险业大数据应用平台 数据源 大数据应用平台 业务应用 产 个 基本信息 寿险账户 官网 产险 人 客 官微 产险账户 户 保单信息 集团标准客户模型 寿险 健康账户 智 产险 寿 实 官微 投保信息 能 APP 险 家 理财账户 时 庭 客户 客 A 实时 客 统一账户统 / 寿险 服 户 年金账户 批 APP P... /批 理赔信息 一认证 P 资管账户 量 量接 入 团 农险账户 服 … 体 接触信息 务 …. 客 户 统一标签服务 .. 潜 …… 统一数据服务 客群 在 分析 客 潜客信息 资管 统一消息服务 户 … … 外部 数据管理 数据 精准 -代码标准 -数据源管理 -模型管理 -质检规则管理 -数据安全分级 营销 数据 -字段标准 元数据 数据质 数据 -数据地图 -影响分析 -质检日志管理 -数据访问权限控制: 标准 -编码标准 管理 -血缘分析 量管理 安全 … -异常预警 定义、分配和维护 -其他标准 … 围绕核心数据资产,打造共享、实时、全量与标准的大数据应用平台 面向服务、行销、决策与风控

14.标准、实时共享的保险业大数据应用平台 数据管理平台建设 客户画像 疑似同一客户 制定客户数据质量管理办法 数据地图 专项治理 制定数据服务监控管理办法 数据质量监控管理 建立专项数据治理工作流程 数据服务监控管理 数据安全管理

15.标准、实时共享的保险业大数据应用平台 数据服务平台建设 数据源 数据获取 数据服务 数据发布 数据应用 保单 理赔 客户 数据服务权限 服务引擎 详情 查询 足迹 服务权限 Hbase/Solr/ 积分 产品 客户 JDBC/… 清单 详情 权益 业务应用 … 数据脱敏 实时服务引擎 数据过 HTTP JDBC 滤 …… 实时服务 数据列级权 HBASE 限 FTP/HTT 批量服务引擎 P RPC 文 数据加密 件 标签 证件 客户 数据 信息 信心 服务监控引擎 数据行级权 restful/webservice 数据迁 限 移 批量服务 Socket …… 客户端定级 创新型应用 关系数据库 /BFT data metadata data data · 元数据采集 服务目录 数据检索 服务开发 服务发布 配置缓存 服务发布 数据监控 数据目录 webapp webapp webapp/eclipse webapp Redis Spring boot SSM webapp 数据资源目录 数据服务开发 数据服务发布

16.标准、实时共享的保险业大数据应用平台 数据管理员 数据开发人员 • 数据资源目录 • 实时服务发布 • 服务资源目录 • 批量服务发布 • 资源目录展示 • 在线开发 • 离线开发 资源目录 服务开发 数据 服务 运行监控 服务消费 • 调用监控 • 服务浏览 • 服务状态监控 • 服务申请 • 设配引擎监控 • 服务审批 • 故障告警 • 数据使用 运维人员 消费方、数据管理员

17. 掌控核心资产,优化数据流向航空业数据应用平台 应用层 市场营销 精益研发 智能生产 专题分析 专题分析 数据可视化 数据共享 数据分析 数据检索 数据应用平台 员工 航班 飞机 客户 参考 运价 销售 维修 财务 库存 时刻 票券 订票 数据申请 数据审批 数据建模 数据检索 数据清洗 数仓 大数据 DM 数据湖 MR\Hbase\Hive EDM HDFS ODS 采集层 业务层 PLM SAP FCV-BOM CMMP DMS ... 车联网 ... ... ... 结构化数据 非结构化数据

18.掌控核心资产,优化数据流向航空业数据应用平台 借鉴某国外航空经验 学习参考其航空 13个主题域,即客户、员工、位置、订座、票务、 数据架构材料,结合 实际情况进行讨论 01 数据主题域 航班、航班计划、财务、资产、设备、维修、运 价、销售、产品库存。 模型专家全程指导 针对每个主题域给出了业务实体目录及定义,实 分析了TeraData公司 02 数据实体 体总数227个。 航空领域模型中 近2000个实体 通过对数据仓库贴源层业务系统表的核查及分析, 数据探查及分析 03 业务系统 给出了每个业务实体对应的数据库表与系统。 依次排除,逐个核对了 1249张业务系统表数据 1-客户 2-员工 3-位置 4-订座 5-票务 6-航班 (Customer) (Employee) (Location) (Booking) (Ticket) (Flight) 对企业感兴趣的人 某航内部直接管理 和企业经营相关的 定义客户预定的航 包括乘客购票签发 包括所有的航班、 与组织,是企业销 控制之下工作的个 所有设施,场所信息, 班订座,包含PNR 出票/重出票交易 航段、航节,航班 售或服务以及与企 人,如正式员工, 如机场,办公地点, 编号、出行日期、 与支付/退款信息/ 计划(以及航班计 业业务往来的个人、 合同工,以及其他 维修站等 承运人、航班号等 结算。 划的盈利预测分析 家庭与组织。 临时工作人员。 信息。 数据) 7-财务 8-设备 9-维修 10-产品 11-库存 12-营销 13-物流 (Finance) (Equipment) (Maintenance) (Product) (Inventory) (Marketing) (Cargo) 和企业财务及收入 实际使用的设备信 记录维护维修的活 航空运价/定价与 内部/外部仓库中 市场行为挖掘客户 支持企业支持航空 结算相关的信息 息,如飞机,机型,机 动,确保使用合适 成本(以及运价分 的库存调整 策略 货运业务所需的信 号 的人员在合适的时 析信息) 息,包括货物分配 间、地点维护设备 计划、货物监管、 货物销售、货物运 输等

19.掌控核心资产,优化数据流向航空业数据应用平台 飞行时间 业务定义 计算规则 报文解析 不统一 不统一 不统一 在11 个与飞行时间相关的系统中,有 7个系统产生飞行时间数据项,3个系统解析 ACARS报文 ACARS 报文 机务SAP MM系统 运行网 系统 AFTN 报文 客舱网 SITA FOIS系统 CECS系统 小时费系统 报文 QAR DOC系统 FRMS系统 运输生产统 电子任务书 飞行网 计系统 航校

20.掌控核心资产,优化数据流向航空业数据应用平台 数据源 数据应用平台 数据专项 应用场景 计算规则 1.航班计划编 制、航班衔接排班 (商委) 新开航线(根据航距、速度、航路、风 计划飞行时间 速等估算计划飞行时间) ACARS 2.测算全公司所有航班将发生的成本 已有航线(统一在飞行时间基础上,根 报文 (人力) 据一定比例放大,行程计划飞行时间 1.计算正班、 加班、包机、补班 的航班 按上一年的航季平均飞行时间加滑行时 AFTN 统一报文 间,每月会根据上月修正更新一次 报文 解析平台 数据应用平台 飞行标准时间 小时费薪酬(人力) 2. 估算飞行时间进行机组排班(飞行部) SITA 1. 统计月报年报数据(飞行、飞管) 报文 2. 监控飞行员累计时间(飞行) 3. 计算返航、备降、调机、试飞航班的 实际飞行时间 飞行小时薪酬(人力) 4. 每月先用实际飞行时间核算全月小时 QAR 费用成本,共享中心成本计提(人力) 5. 上报民航局(规划) 合并统一的飞行时间: 6. 核对油耗、飞行速度、计算航班准点 航空器 靠自身 动力 滑行 速达2 节这 率(规划) 一时刻开始到落地后借助 自身动力 电子 7. 计 算发 动机及 配件 的累 计飞行 时间 停止滑行 任务书 (技术) 1. 航后、电子任务书未及时回收是,年 SM系统 报文飞行时间 底、月底控制飞行员累计飞行时间(飞 行) 任务飞行时间 1. 小时费快核算,根据当天电子任务书 时间测算人力小时费(人力) 航校 1. 飞行员资质升级(飞管) 培训时间+实际飞行时间 累计飞行时间 2. 飞行时间查询(飞行)

21.目录 1 数字经济时代需要新一代大数据应用平台 2 如何实现面向治理的大数据应用平台 3 面向治理大数据应用平台核心架构

22.面向治理的大数据应用平台总体架构 数据开发管理(DD) 数据管理 (DM) 统一数据网关(DG) 采集(接数)服务(DI) 数据服务总线(DSP) 数据存储&计算 实时区 集成区 实验区 历史区

23.平台架构建设五大重点 1 闭环数据应用 2 端到端服务开发 3 全链路共享数据服务 4 安全统一数据网关 5 服务接口标准化

24.闭环数据应用 共享 开发利用 共享协作 数据保障 开发 使用 元数据 资产管理 运营分析 管理

25.端到端服务开发 需求-> 设计->开发->发布的端到端管理。 提供方 数据转换 加密/脱敏 Web服务 数据库服务 消费方 申请 审批 服务目录(业务) 文件服务 服务目录(开发) 在线开发 作业调度 模板库 发布 离线开发 开发 申请/订阅 准备工作 消费方

26.全链路共享数据服务 自动化采集,形成全数据链路,形成数据服务共享的全貌图

27.安全统一数据网关 实时流处理数据回写到kafka 统一数据网关 如网络数据、结果数据 MFP1.5年 实时流 1、消费kafka 专题数据 接口 安全 2、实时预警数据 Hive 1、消费kafka上传HDFS 电X、分X信X、 Neo4j 2、入Hive 详单等存储180 图数据库 天,其余全量 (关系数据) Jdbc 行 1、消费kafka上传HDFS HBase HDFS 列 2、入HBase 分类50+,电X 400+等 Kafka rest 脱敏 (7天) 1、消费kafka 2、入全文ES 全文ES Hive 加密 在线60+,历史 180+ ES 定级 1、消费kafka 2、文本挖掘 TEXTMINE 非结构化HFS ... Hbase 文本挖掘数据回写kafka 回写的网格数据入时空库 Spark 时空库1.5年 ………… 回写的布控结果数据入库 动态管控库 永久

28.服务接口标准化 平台提供包括接口、文件和数据库的服务 资产A 服务A 拉取 服务B 数 资产B 据 服 务 推送 总 服务C 线 资产C 服务D

29.总结 1,数字经济时代企业需要面向治理大数据应用平台 2,面向治理大数据应用平台要围绕“盘-规-整-用” 3,建立“采集、开发、管理与服务”一体化平台