企业数据中台整体介绍及建设方案

什么是数据中台,中台怎么建设,中台产品怎么选择,案例分析。

展开查看详情

1.企业数据中台整体介绍

2.什么是数据中台 数据中台怎么建设 数据中台产品怎么选 数据中台案例介绍

3.企业大数据面临什么样的问题 零散的、孤立的、分散的 • 大数据平台 01 • 业务越向前越不准确 • 开发套件 • 数据被业务模块割裂 • 规划可视化 • 分析引擎 混乱的、困惑的 02 • 数据口径不统一 • 数据定义不清晰 技术 Design and planning Organization system • 数据视角不一致 • 数据对不上 产品 设计 组织 渴望的、不满足的 规划 Product and technology 体系 03 • 每个岗位都希望得到数据的支撑 • 很多种智能的应用都需要数据的支撑 • 数据资源 • 业务职责 • 数据治理 • 数据策略 基础不牢、价值不高的 • 数据建模 • 规范运维 04 • 数据指标 • 底层建设严重匮乏 • 数据运维 • 高价值数据难以产生 • 当前的数据业务价值低下

4.企业选择什么样的大数据起点 规范小数据中心 无序小数据中心 规范有序的全域数据中心 (数据中台) 无序大数据中心

5.数据中台解决什么问题 用 一切数据业务化 企业完整数据解决方案 解决数据“存”、“通”、“用”难题 数据中台,是基于分布式数据平台之上,根据行业客户的业务场景量身定制的一整套数 据智能解决方案,基于“互联网+”时代的数据价值思考,赋能企业,提升竞争力 通 一切业务数据化 连接数据孤岛 存

6.数据中台有什么本事 多来源:RDBMS,Hadoop,文本、接口.. 多结构:结构化、半结构化、非结构化 采集整合 多方式:批量、实时 企业数据资产可视化 整合打通:IDMapping,整合统一 企业IT资源可视化 智能报表开发与共享 大屏可视化展现与监控 数据资产 数据可视化 管理 数据规范:数据标准化,指标体系 数据建模:数据域,逻辑模型,物 理模型 数据管理:主数据,元数据、数据 数据中台 质量,数据安全 数据共享:数据地图,数据接口 标签体系管理:静态标签、 动态标签(算法标签),标签 生命周期管理 全景洞察:用户画像,商品画 像,商圈画像… 数据业务化 分析挖掘 精准营销:人群筛选,智能推 荐,广告投放…… 自助交互式分析:智能报表,整合分析 规则管理:业务规则配置,预 丰富的算法库:数据预处理,分类、聚 警监控… 类,关联,预测…

7. 数据中台与传统数仓有什么区别 分布式数据平台 数据开发一站式 传统数仓以单机关系型数据库离线分析为主;数 传统数仓往往将ODS、EDW和ETL开发切割到不同厂商 据中台以分布式引擎架构,同时支持离线计算/ 工具实现;数据中台则主张一站式可视化数据开发, 实时计算/即时计算/智能计算 借助分布式技术的力量简化数据加工处理的过程 数据源丰富性 数据资产在线化 传统数仓以业务数据库的结构化数据为主;数据中 传统数仓的数据管理和治理,往往花费大量精力,最 台涵盖业务数据、日志数据、行为埋点数据、IoT数 终形成的是离线的规范和文档;数据中台则强调元数 据、爬虫数据、外部数据等 据管理统一入口的自动化和数据资产管理的在线化 建设模式方法论 数据应用创新 传统数仓往往采用自顶向下的建设模式,以明确 传统数仓以某个业务主题的BI报表和决策支持为主,目的性 的业务分析驱动,延续性低;数据中台采用自底 单一,烟囱式建设;数据中台则主张全域数据打通数据孤 向上的方式,结合业务需求变化不断迭代升级 岛,释放业务方数据应用创新的能量

8.数据中台长什么样

9.数据中台体现什么样的企业核心价值 全面梳理数据资产 落地战略和组织保障 数据资产管理在线化 通过业务的不断滋养 构建全域数据中心 培养业务创新的土壤 形成数据人才成长的摇篮 打造业务和数据的闭环

10.企业怎么规划大数据发展蓝图 坎 数据应用建设 精准营销 智慧选址 数据可视化大屏 经营指标 实体标签 大数据应 体系建设 体系建设 用开发 零售参谋 智慧门店 震 数据中台建设 数据同步 数据建模 数据萃取 数据化咨询 指标梳理与 标签梳理与 数据应用 现状分析 规划 数 3ONE中台方法论 现状分析 据 管 数据中台建设规划 理 组 数据采集与质量治理 用户中心 兑 数据资源规划 数据质量评估 织 日志数据采集 大数据数据质量治理 产品中心 外部数据爬取 业务数据质量治理 数据治理 行为数据采集 基础数据质量治理 离 其他中心

11. 企业信息化数据化展望 上帝 = 全知 + 全能 全知 = 数据 + 算法 • BI分析 • 数据治理 • AI • 财务报表 • 管理驾驶舱 • 大数据 • 数据智能 数据 • 业务报表 • 数据中心 • 数据中台 • …… • 企业编码规范 • 数据挖掘 • 数据应用 半结构、非结构数据 外部数据 结构化交易数据 内部数据 数据化 step1 step2 step3 step4 基础数据 更快的指标 决策者 应用 业务产生数据 Soa 更多的指标 隐藏在背后的指标 • 会计电算化 • ERP • • 应用中台 管理者 • 办公自动化 • 系统的大量内部集中 • Esb • 分布式 业务人员 • 大量应用与部署 • 集团管控 • portal • 自研发 机器/应用 角色 信息化 step1 step2 step3 step4 信息化与数据化互动 数据化的成果是数据、是价值

12.什么是数据中台 数据中台怎么建设 数据中台产品怎么选 数据中台案例介绍

13.数据中台建设思路 数据中台体系涵盖整个数据中台解决方案框架 图,既包含数据技术平台,也包含数据开发、数据 模型、数据资产和数据产品应用。通过建设数据中 台建立数据资产体系,规模化服务业务,保证数据 质量,更大限度的发挥数据价值。 方法论 产品+工具 实施流程 整体规划,分布实施,数据中台是一 大数据分布式计算平台、数据开发套 一整套体系化的数据中台建设实施流 个经过不断循环、反馈而使系统不断 件、数据质量管理工具、数据地图管 程,包括需求调研、需求分析、架构 增长与完善的过程,这是区别于系统 理工具数据模型管理工具、API管理 设计、数据与应用开发、部署和测试 生命周期法的主要特点。 工具等。 运维等。

14.数据中台实施路径 分析 部署 集成 明确业务需求, 基础设施安装或 整体环境测试联 业务建模,与现 升级。 调上线 有系统匹配。 1 2 3 4 5 6 7 调研 设计 开发 管理 包含机会评估和 设计数据仓库和 数据仓库ETL 的 元数据、数据质 企业评估两项服 数据应用技术体 设计、模型开发 量、容量规划、 务 和单元测试,数 优化性能问题、 系架构,完成详 据产品开发 细设计

15.数据中台实施路径——①调研 客户行业的了解 准备工作 行业成功案例和经验总结 培训资料、交流问题以及调查问卷的准备 客户的组织结构和工作流程 业务调研 客户当前的业务系统和主要功能 客户各系统之间的关系、数据内容及状况 客户主要的应用报表的解释 系统调研 细致分析整理客户报表及业务系统数据 电话 构建数据产品或分析模型的原型图 沟通 会议 沟通 成果输出 通过原型收集需求后,完成分析模型描述 问卷调查 数据产品需求说明书

16.数据中台实施路径——②分析:以业务为驱动 以业务为导向 结构化分析,逐步细化 形成需求文档 现状分析 确定、分解分析主题 确定指标体系 确定分析角度 确定维度层次 目前的业务发展情 主题是否还需要分 每个分析主题包 这些指标从哪些维 这些维度包含哪些 况? 解? 括哪些关键分析 度进行分析? 层次? 经营管理现状? 每个主题的分解目 指标? 维度的聚合方式是 系统的数据源和数 标是什么? 包括哪些衍生物 什么? 据质量怎么样? 指标?

17.数据中台实施路径——③设计:方法论 全流程一体化 向上多样化赋能场景 向下屏蔽多计算引擎 双向联动 从数据采集到数据服务全链路通 通用产品+行业产品+专享产品 公共云+专有云+私有云 业务与产品&技术协同互助 OneData OneID OneService 数据标准化 技术驱动数据连接 主题式数据服务 数据规范定义从业务源头标准化 基于超强ID识别技术连接数据 主题逻辑表屏蔽复杂物理表 技术内核工具化 技术内核工具化 统一但多样化数据服务 规范定义、建模研发、调度运维、··· 超强ID识别、高效标签生产、··· 一般查询+OLAP分析+在线服务 元数据驱动智能化 业务驱动技术价值化 跨源数据服务 半自动化->智能化规划计算和存储 孤岛->高质量->高价值 屏蔽多种异构数据源

18.数据中台实施路径——③设计:数据仓库模型设计 概念模型设计 确定主题 确定主题域的边界 粒度层次划分 逻辑模型设计 事实量度确定 数据分割策略(数据量、分析的实际情况、简单易用) 结构模型确认 确定存储结构(存储时间、存储空间利用率和维护代价) 物理模型设计 确定索引结构(专用的、复杂的、文档的) 确定存放位置(归并、冗余、建立数据序列) 优化存储分配(块大小、缓冲区大小、个数等)

19.数据中台实施路径——③设计:基于OneData的数据模型分层设计 ADS 数据应用层 个性化指标加工:不公用性;复杂性(指数型、比值型、排名型指标) 基于应用的数据组装:大宽表集市、横表转纵表、趋势指标串 CDM 公共维度模型层 CDM层又细分为DWD层和DWS层,分别是明细宽表层和公共汇总数据层 DWD:以维度模型方法基础,采用维度退化手法,减少事实表和维度表的关联 DWS:加强指标的维度退化,采取更多宽表化构建公共指标层,提升公共指标的复用性 ODS 操作数据层 同步:结构化数据增量或全量同步 结构化:非结构化(日志)结构化处理 累积历史、清洗:根据数据业务需求及稽核和审计要求保存历史数据、数据清洗

20.数据中台实施路径——④部署 数据中台环境搭建 开发环境和生产环境严格一致 开发环境 生产环境 数据采集平台 数据计算平台 数据中台工具产品 数据应用平台 • 实时数据源采集方式 • 阿里云数加大数据平台 • 数据质量模块 • 应用微服务和数据库环境 • 定时数据源采集方式 • 袋鼠云RDOS分布式大数 • 数据模型模块 部署 据计算平台 • API平台模块 • 产品监控工具部署 • 标签工厂 • …

21.数据中台实施路径——⑤开发:数据仓库开发 数据模型性能优化 数据模型性能调整和优化 数据模型测试 针对开发后的ETL脚本进行自测和交叉测试 数据备份和恢复 开发数据备份与恢复程序 增量数据加载 开发日常增量加载的程序和处理流程 历史数据加载 开发历史数据加载的程序和处理流程 ETL开发 数据定时/实时同步,建立DW/OLAP分析模型

22.数据中台实施路径——⑥集成 数据测试 应用测试 集成测试 • 测试历史数据加载程序和流程 • 单元测试 • 性能测试 • 测试日常数据加载程序和流程 • 接口测试 • 接口测试 • 数据正确性测试 • 功能测试 • 功能测试 • 数据模型性能测试 • 用户体验测试

23.数据中台实施路径——⑦管理:数据管理体系 组织 流程 数据与信息标准化委员会 数据管理人 数据所有人 数据生产人 数据使用人 IT 支持团队 组织建立/维护 流程 考核指标 责任评价 标准执行评价 政策执行评价 标准建立/维护 数据标准 数据质量 元数据 数据安全 流程 数据全生命周期 数据创建 数据存储 数据移动 数据共享 数据停用 评价 数据类型 真实性定义 技术元数据 安全等级 与 考核指标 数据格式 及时性定义 业务元数据 权限定义 评价标准 建立/维护流程 考核 业务分类 完整性定义 管理元数据 审计定义 业务含义 一致性定义 保留策略 …… …… …… 评价与考核流程 数据认责 平台 数据标准管理 数据质量管理 元数据管理 数据安全管理 工作流管理 ……

24.什么是数据中台 数据中台怎么建设 数据中台产品怎么选 数据中台案例介绍

25.数据中台实施路径——⑥集成 拥抱开源 自有研发 基于 Spark/Flink/Tensorfl 能满足客户离线和实 ow 时等计算需求,通过 兼容 不同产品组合能满足 CDH/HDP/TDH/EM 多数大数据用户的需 R 求。但是是闭源体系。 贡献 FlinkX/jLogstash/Str eamSQL 公有云服 绑定产品 私有化& 模块组合 务为主 体系化 公有云部 计算引擎&应用引擎 按需购买大数据服务, 初期价格不高,但是 自主开发的产品化体 系,产品之间的耦合 署 开发套件&治理套件 报表引擎&数据应用 5年成本比较高。要 度很多高,功能强大 引擎 支持PB级大数据 求数据上云,对企业 但是要配套使用 不依赖特定IAAS 数据安全制度是挑战 阿里公有云大数据服务 袋鼠数栈产品系统 (数据能上云的客户,推荐阿里公有云) (希望本地化部署客户,推荐数栈)

26. 数栈:企业级一站式数据中台PaaS 数据应用 数据化运营 可视化大屏 舆情监控 精准营销 个性化推荐 …… 大屏引擎 数据应用引擎 数据API 分析引擎 Easy[V] …… 基础服务 集群部署 智能 数据开发套件 数据仓库主题域 数据治理套件 运维监控 用户主题域 数据质量 数据集成 实时任务开发 交易主题域 数据地图 多租户隔离 实时 任务运维 离线任务开发 商品主题域 数据模型 多集群管理 业务中台 全域 日志分析 数据计算引擎 RD-OS Cloudera FusionInsight EMR EasyLog 数据源 RDBMS 日志文件 ElasticSearch FTP HBase DT.Trace …… 数栈产品 第三方产品

27.数栈多租户管理 ◎ 通过资源队列方式实现资源隔离 ◎ 支持计算节点粒度的多租户管理 ◎ 支持cpu+内存组合粒度的多租户管理 ◎ 支持按照资源池的百分比/固定值进行资源分配 租户A 租户B 租户C 用户 租户管理平台 计算 租户A任务 租户B任务 租户A任务 租户B任务 租户C任务 任务 租户A 租户B 租户C 虚拟机 节点1 节点2 节点3 节点4 节点5 节点6 节点7 IAAS资源管理平台 物理机 物理机1 物理机2 物理机3

28.实时流计算 对用户行为或相关事件实时监测 数据的实时清洗、归并、结构化 和分析,基于风控规则进行预警 用户行为预警、AppCrash预警、 数仓的补充和优化 服务器攻击预警 实时ETL 监控预警 实时在线 实时报表 实时计算相关指标反馈及时调整 系统 活动实时直播大屏 决策 内容投放、无线智能推送、实时 数据化运营 个性化推荐等

29.数栈-开发套件:大数据的“视窗操作系统” 开源生态兼容 可视化操作界面 全生命周期覆盖 ◎ 兼容CDH、HDP、EMR等第三 ◎ 屏蔽底层复杂的分布式计算引擎,基 ◎ 全链路覆盖数据价值释放过程, 方开源分布式计算引擎 于Web的开发平台,提高开发效率 支持实时、离线和智能计算 任务状态监控 数据资产管理 任务开发与调度 数据模型规范 数据输出 数据输入 实时/离线/智能 分布式计算引擎