- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
openLooKeng : 数据湖的打捞利器, 让算力无限逼近数据!
胡继云-鸿鹄元数公司总经理
展开查看详情
1 .
2 .openLooKeng: 数据湖的打捞利器,让算力无限逼近数据! 主讲人:胡继云
3 . 目录 01 公司及背景简介 02 数据中台产品简介 03 openLooKeng在数据中台的实践
4 . 公司简介 北京鸿鹄元数科技有限公司成立于2021年01月,总部位于北京,隶属创云融达集团,是 中关村科技园高新技术创业型企业。经营范围包括技术开发、技术咨询、技术交流、技术转让、 技术推广、技术服务、软件服务等。 公司团队与华为、腾讯、阿里等一线大厂长期紧密合作,在数据采集交换、数据治理、 数据沙箱、数据服务、银行CRM产品方面具备较强的产品研发实力,主要为电信、金融、司 法、交通、环保、应急等各行业领域客户提供专业的技术服务,具备丰富的项目实施经验。 诚信 认真 创新 开拓
5 . 企业资质 公司拥有一体化数据中台、数据治理、数据安全、数据交换、数据探查等全系统的自主知识产 权,已获取12项软件著作权。同时,公司具备CMMI 5级认证和ISO9001质量体系认证。
6 . 合作伙伴 合作伙伴 COOPERATIVE PARTNER 团队深耕大数据行业十余年,具备成熟的产 品研发创新、项目实施方案设计以及综合方 案解决能力。公司在技术及服务领域与华为、 腾讯、阿里建立了长期紧密合作关系,共同 为客户提供高效综合的技术解决方案
7 . 产品体系 鸿鹄元数拥有丰富的产品体系,覆盖“采、 存、集、管、用”数据全链路产品。 鸿鹄元数公司产品体系 采 存 集 管 用 数据资产管理平 数据采集平台 MPP并行仓库 数据开发平台 标签画像系统 台 采集监控平台 分布式存储 统一运维调度 数据治理平台 数据服务平台 实时采集管理平 统一运维监控平 指标可视化(大 对象存储 数据中台 台 台 屏/APP) 安全沙箱 CRM系统
8 . 团队介绍 研发实施团队60人,85%以上人员来自电信、金融行业主要厂商的核心数据及研发团队(都超过12 年),如Teredata、神州数码融信、亚信、东南融通等,具有专业的产品研发技术及丰富的项目实践经 验。 团队构成 业务分析7人 研发实施45人 模型算法8人 • 业务梳理 • 系统框架搭建 • 需求分析 • 流程分析 • 数据架构搭建 • 数据对接 • 制度制定 • 数据源对接 • 模型构建 • 咨询规划 • 页面开发 • 模型评估 • 后台开发 • 模型部署 • 移动端开发 • 模型迭代更新
9 . DT时代,企业面临数字化转型挑战 • 我们生活在一个指数级变化的时代,这不仅是由诸如云计算、大数据、人工智能等技术的进步所驱动的,也是由这些 技术组合的方式所驱动的。正是这些不同的技术组合成整体解决方案,形成了数字技术生态系统的基础,推动着企业 数字化转型。 • 但技术是把双刃剑,无规划的、急于求成的技术引入和建设致使大多数企业面临新的问题和挑战。 管理难 81% 73% 60% 58% 管控难 分析难 使用难 使用难 接入难 数字化转型 随着数字化的不 系统建设阶段无 数据使用不便捷, 多业务系统、多 断深入,很多数 Problem and 规划,以业务需 看不明问不清,如 数据源、平台异 challenge 据成效不明显, 求为导向的系统 使用的数据找不到、 构等,造成数据 接入难 表现为分析周期 开发,呈现烟囱 数据质量差,数据 接入困难、数据 长、价值难挖掘, …… 式建设问题。 应用不够灵活 效率低 响应缓慢 备注:数据来源 Gartner2020《构建数字化转型技能》报告 数据中台重点 解决的问题 数据湖重点 解决的问题
10 . 企业数字化转型须具备五大关键能力 易管理 • 流程制度易管理 • 数据质量易管理 数据管控的能力 • 规范标准易管理 • 元数据协同能 数据服务的能力 • 安全易管理 力 • 服务管理能力 数据集成的能力 • 数据质量管控 易使用 能力 • 服务开发运维 • 异构数据集成 采集交换的能力 • 数据标准统一 能力 能力 • 业务人员易使用 能力 • 数据分析决策 • 批量、实时数 存储计算的能力 • 技术人员易使用 • 多源数据集成 据采集交换能 • 数据安全保障 服务能力 能力 • 大规模数据批量、 力 • 合作伙伴易使用 能力 • 数据资产服务 实时计算能力 • 复杂数据模型 • 跨异构平台数 • 管理者易使用 • 数据开发管控 化能力 的构建能力 • 海量数据高并发 据采集交换能 能力 …… • 多类技术运用 力 计算能力、 易接入 能力 • 多源异构数据 • 海量数据存储和 • 丰富数据源易接入 适配处理能力 扩展能力 …… • 跨异构平台易接入 …… 04 服务价值化 …… • 不同数据类型数据易接 当数据开始源源 03 资产服务化 入 不断的为企业服 把资产通过统一 02 数据资产化 易分析 的方式服务出去, • 快速的数据试探 务时,其本身也 发掘新的应用场 通过对数据集成加 01 业务数据化 将变成一项新的 • 灵活多变的分析需求快 工,让数据被业务 景,提供内部运 即业务数据在线, 业务,将来业务 速响应 所使用,如报表、 营的数据资产服 融合成一体,汇聚 和技术的边界会 • 更快的价值发现和全民 指标、标签的形成 务,降本增效、 在数据湖或数据中 越来越模糊 数据分析 辅助决策等 心。
11 . 企业数字化演进的过程 企业的数字化演进过程可以分为如下五个阶段,目前大部分企业仍然处于第二三阶 段,较少企业已经步入中台和数据湖阶段。 数字化的目标是从业务架构设计到模型设计,从数据研发到数据服务,做到数据可 管理、可追溯、可规避重复建设,最终实现【一切业务数据化,一切数据业务化】 数据湖阶段 数据中台阶段 数据湖包含的数 据量和类型更加 数据平台阶段 从业务架构设计到 广泛。是一种更 仓库集市阶段 模型设计,从数据 数据应用管理 直接的数据应用 数据库阶段 研发到数据服务, 模式。各类数据 仓库数据分层+主 +任务监控+资 产管理+数据 做到数据规范化可 存储+更快价值发 题域集成开发+集 存储持久化+ 治理+开发管 管理、可追溯、可 现+全民数据分析 市开发+数据生命 简单的关联查 理 规避重复建设 周期管理+权限管 询和历史查询 控
12 . 目录 01 公司及背景简介 02 数据中台产品简介 03 openLooKeng在数据中台的实践
13 .整体思路:统一“采、 存、集、管、用”全链路能力,赋能数据价值,助力企业数字化转型 经营分析 决策指挥 用户画像 精准营销 数据挖掘 …… 数据中台实施路径 数据湖实施路径(openLooKeng) 统一数据服务 数据资源服务 统 统一数据资产 统 统 数据即席查询 统 一 一 一 一 安 数 安 数据集成 数 统一数据集成 全 据 全 据 保 管 保 管 障 统一数据存储 控 障 数据交换 控 统一数据交换 数据采集 数据源1 数据源2 数据源3 数据源4 数据源5 ……
14 .一体化中台逻辑架构 业务数据化 数据资产化 资产服务化 数据采集交换 数据存储计算 数据集成 数据管控 数据服务 数据应用 中台核心能力集(核心功能) 批量数据交换 大数据平台 模型设计 数据资产地图 服务开发 即席查询 实时数据交换 MPP/SMP 可视化ETL 元数据 服务组合 BI报表 批量数据采集 公有云 脚本开发 数据标准 服务路由 指标库 实时数据采集 私有云 网格化开发 数据质量 服务控制 标签库 元数据采集 混搭平台 数据探索 数据安全 服务目录 画像与推荐 需求工单管理 工作流管理 日志监控与分析 作业调度引擎 openLooKeng 数据安全算法 … service service service service service service 基础能力服务框架(技术底座)
15 . 特性一、跨平台多源数据自动适配能力 l 通过支持多源、多目标装载能力,满足重庆机场对多系统、多异构环境下,数据交换与目标装载的需 求。 l 支持Mpp、Oracle、Spark、Hive、Hbase、MySQL、kafka、Spark、ES等多源的抽取能力,以及 向多源目标库的转换及加载能力。 l 在数据探索实验室基于openLooKeng引擎适配了多源异地试验样本数据的抽取能力。 源 openLooKeng直连方式 目标 Data Data MPP Source Coordinator Worker Worker Worker MPP Source Connector Connector Oracle Oracle Spark Spark Hadoop Hadoop MySQL MySQL Kafka Kafka ES ES
16 . 特性二、多模式集成开发能力 1 IDE组件化开发 2 脚本开发 数据开发需实现项目开发内容 支持SQL、存储过程、批 的统一管理,支持数据开发管理、 处理脚本以及大数据平台相关 标准开发管理、灵活开发管理、 (spark sql、hiveSql)等脚步 关系管理、数据测试等功能;数 在线开发,从而实现现有业务 据处理开发支持拖拉拽连线方式 处理逻辑与数据中台的快速衔 完成任务编排,让开发人员更专 接。 注业务逻辑问题。 4 试验探索开发 3 网格化开发 基于openLooKeng多源异 构跨库查询能力,为适应企业 支持网格化导航方式配置采 数据湖探索分析需要,支持了 集任务,快速完成数据采集、数 数据实验室探索开发模式。数 据卸载及数据装载;基于平台元 据分析人员根据数据授权申请 数据实现字段信息自动 可以自由探索分析数据,能有 mapping与人工手动调整。 效避免了传统的ETL数据搬运 工作。
17 .特性三、支持湖仓一体化协同数据分析,避免数据搬迁,让分析更加专注 传统数据分析模式(重ETL) 湖仓协同分析模式(轻ETL) 数据分析师 数据分析师 数据分析师 数据分析师 数据分析师 SAS BI工具 Python SAS BI工具 HiveQL OLAP ETL SQL openLooKeng虚拟数据引擎 数据集市 挖掘分析库 ETL ETL ETL Hive ETL DWS Hive DWS 数据湖 数据仓库 数据湖 数据仓库
18 . 特性四、支持流批一体化计算能力,让算力无限逼近数据 数据湖实时区 数据湖协同区 数据源 应用 Gaussdb 实时 Flink OLAP库 Kafka 集成 自主分析 实时数据源1 批流一体融合 open Redis LooKeng 专题数据 Redis 统 实时数据源2 流变量 一 BI报表 Hudi HBase 数 ACID增量管理 专题数据 据 访 批量 Spark 批量数据源1 集成 离线加工 问 营销活动 接 Hive 口 专题数据 批量数据源2 数据存储 元数据 可视化 数据湖离线区 l 据湖区离线区:开放格式存储引擎,多样性引擎,支撑多种分析工作负载,实现湖仓一体 l 数据湖实时区:实时集成、批流融合、实时更新与删除,全链路实时实现分析业务T+0时效性 l 数据湖协同区:数据虚拟化实现湖内外数据统一访问、协同分析
19 . 特性五、微服务架构按需组合能力 业务应用 管理驾驶舱 智能监控 经营分析 智能客服 销售预测 风险控制 … 采、存、集、管、用 指标可视 可视化服 数据采集 数据存储 数据集成 数据管控 标签画像 数据共享 化 务 按 需 组 合 一体化中台基础微服务 调度服务 采集服务 数据清洗服务 工作流服务 数据质量服务 元数据服务 基础算法服务 可视化服务 数据探索服务 数据标准服务 实时计算服务 技术引擎 微服务框架 任务调度引擎 数据治理引擎 数据服务引擎 openLooKeng引擎 数据处理引擎
20 . 特性六、全链路安全管理能力 中台统一管理数据全链路安全,包括数据入口、出口,以及接入通道的安全,确保数据传输和使用在安 全的环境下进行。 用户接入 数据访问 分发 数据源 数据开发平 用户登录接入 数据共享平台 数据仓库 数据服务 台 权限控制 接 数 入 据 通 1、权限验证机制 1、数据授权使用 1、敏感字段不可逆加密 入 道 2、调用监控 2、数据脱敏开放 2、敏感字段匿名化 口 安 安 3、风险熔断 3、数据水印 3、敏感字段数据泛化 全 全 4、黑白名单体系 4、存储安全扫描 数据出口安全 敏感发现/行为审计/出口数据审计/…… 安全审计
21 . 特性七、规范化数据资产管理能力 数据 标准 模型 数据 数据 数据 数据 数据 数据 数据资产管理是数 规划 定义 设计 采集 开发 创建 使用 归档 销毁 据良好应用的基础 通过组织制度、流程、工具支撑全生命周期的数据治理 和保障。 数据资产管理对象 数据管理工具 数据目录 数据对象 数据字段 标准化单词库 数据标准化管理 数据资产管理能力包 括: 数据质量管理 数据资产管理流程 • 组织机构协同能力 数据质量管理流程 元数据管理流程 数据标准化流程 数据模型管理流程 • 数据质量提升能力 数据安全管理 • 数据流程梳理能力 数据生命周期管理 • 数据标准制定能力 数据资产管理组织 数据架构师 数据模型人员 运维人员 数据管理员 数据管理员 元数据管理
22 . 目录 01 公司及背景简介 02 数据中台简介 03 openLooKeng在数据中台的实践
23 . openLooKeng:我们不搬运数据,我们只是数据的“连接器” openLooKeng 是一个数据虚拟引擎,它支持对任何地方的任何数据进行原位分析,包括地理上远程的 数据源。 1 跨源融合分析,数据不搬移 BI工具 /AI工具/查询分析工具 openLooKeng可以很容易的实现不同数 据源的联合查询。不同数据源之间不需 统一数据访问接口 要数据搬迁(ETL),广域网的部署, 局域网的体验。 ODBC SQL JDBC REST 2 化繁为简,统一数据访问接口 VDM(数据虚拟超市) 引擎内核(融合分析、查询优化、高可用、数据虚拟化…) openLooKeng用一套框架满足多种数据 启发式索引 调度优化 动态过滤 算子下推 Cache 高可用 水平伸缩 融合应用的场景,化繁为简,统一不同 数据访问接口,让分析人员更关注数据 统一数据源连接框架 分析本身,而不是数据准备。 3 性能高效,内核增强 openLooKeng在presto基础之上分别在 SQL访问层、分析层、数据接入层做了 增强,如:SQL兼容性增强(92-2003), 数据中心A 数据中心B 数据中心C 支持的数据范围更大。查询性能优化等
24 . openLooKeng引擎的业务应用场景 1.跨源异构查询分析场景 2.跨数据中心查询分析场景 openLooKeng可用于实现 在两级或多级数据中心场景中,例如省-市 RDBMS、NoSQL、Hive、 数据中心或总部-分支机构数据中心,用户 MPPDB等数据仓库的联合查询。 经常需要从省(总部)数据中心或市(分支 借助openLooKeng的跨源异构查 机构)数据中心查询数据,openLooKeng 询能力,数据分析师可以快速分 可很好的解决数据跨域跨中心数据融合汇聚 openLooKeng 析海量数据。 的问题,能有效降低数据准备成本。 3.数据采集交换和服务场景 4.湖仓数据分析探索场景 openLooKeng由于已经统一了数据 openLooKeng 可以使用标准 SQL 来定义 访问接口,可以将不同数据源抽取 多源融合的虚拟数据集市,有效提升分析效 形成虚拟数据集再将该数据集写入 率和数据价值发现。通过跨源异构查询能力 到目标地址源。因此可以直接用于 连接到每个数据源。这样就可以在虚拟数据 数据的采集、交换和服务场景。 集市的语义层定义用户需要探索的各种分析 任务。借助 openLooKeng 的数据虚拟化 能力。
25 .openLooKeng:对我司中台产品能力的增强 01 数据交换服务能力增强 在常规的数据中台产品架构中,数据采集、交换、 和服务是主要的中台能力体现。我司中台产品不 仅包含了成熟的数据交换服务套件,同时也兼容 openLooKeng引擎技术对产品进行能力增强。 02 数据集成分析能力的增强 我司中台产品具备了多种数据集成分析模式,用 户可以以IDE组件化的方式进行ETL数据集成处理。 01 02 03 同时产品也利用openLooKeng特性将数据湖打 捞数据变成了现实。完成了产品数据集成分析能 力的增强 03 数据安全管控能力的增强 我司中台产品子产品“数据沙箱”系统旨在为企 业提升数据安全能力,实现了基于数据安全分类 分级策略,自动完成数据流动数据的脱敏加密。 基于openLooKeng引擎特点在此方面也进行了 能力增强
26 .我司参加openLooKeng2021信创“大比武”鲲鹏基础软件开发大赛 【大赛介绍】 SQL历史记录查询功能增强 2021信创“大比武”·鲲鹏基础软件开发 本作品主要是对SQL历史记录查询功能的增强,对使用 赛道,是面向全球开发者的顶级赛事,本次大 openLooKeng跨库引擎进行查询时执行sql记录持久化, 赛由中国电子工业标准化技术协会信息技术应 支持关系型数据、本地文件、远程ftp/sftp服务器几种方 用创新工作委员会指导,华为技术有限公司主 式。通过配置honghu.sql.persisted = 办,重庆鲲鹏创新中心、北京鲲鹏联合创新中 localfile/sftp/jdbc切换持久化方式 心、openEuler社区、openGauss社区、 WEB UI SQL记录查看页面增强 openLooKeng社区、同方股份信创业务集团 对现有WEB UI中SQL记录查看页面进行增强,增加了按 共同承办。 执行catalog、schema过滤查询,按执行时间区间查询, 2021信创“大比武”大赛我司参赛团队已 并对结果进行分页提升查询效率。 成功进入决赛阶段。 页面布局体验增强 调整了展示列表的布局,内容显得更为紧凑,支持新的 窗口查看更多的sql内容。
27 . 案例1:某银行数据中台项目(openLooKeng在数据服务模块的应用) 建设实施了完整的中台能力,包括采集交换、数据处理、数据管控、数据安全和数据服务,极大地提升 了全行数据开发及应用效率。根据客户回访调研,整体效率较项目实施前提升63%; 此项目在数据服务模块应用了openLooKeng跨库查询技术,支持用户封装服务前,跨库查询数据。 业务应用 领导驾驶舱 智能监控 经营分析 智能客服 精准营销 …… 数据服务 数据处理 数据管控 数据安全 服务发布 服务注册 服务审计 批处理 实时处理 脚本开发 标 数 运 数据标准管理 授权管理 准 据 行 …… 服务编排 数据查询 计费计量 数据挖据 上线管理 规 安 维 范 元数据管理 全 护 访问控制 体 体 体 数据采集交换 系 系 系 数据交换 数据元管理 脱敏脱密 结构化 非结构化 数据抽取 数据装载 数据质量管理 安全审计 离线数据 实时数据 清洗转换 统一调度 数据源 核心 信贷 网银 手机银行 信用卡 ……
28 . 案例2:某政府数据沙箱项目(openLooKeng在数据安全模块的应用) 建设数据沙箱,在安全沙箱环境中,实现数据开发,保障数据开发和调用的安全性,做到数据可用不可见。 在进行数据安全加密过程中,支持跨库查询。 流入区域 数据沙箱探索区 流出区域 租户A 租户B 租户C 基础数据区 基础数据区 数据使用申请 数据资源目录 访问权限审批 历史数据区 数据池空间分配 历史数据区 数据调试区 数据运行区 数据抽样 数据同步 集市数据区 集市数据区 数据仿真 数据脱敏 模型同步 数据探查 模型计算(结果) 模型开发 数据销毁 服务数据区 服务数据区 模型迭代 数据区空间回收 数据区空间回收 数据资产管控 元数据 数据标准 数据质量 数据地图 数据生命周期 …
29 . 案例3:某政府数据中台项目( openLooKeng在数据采集模块的应用) 建设基于微服务架构搭建数据中台,充分提升数据资产管理能力与数据采集、开发、应用等能力,并 通过安全可控的统一数据服务平台,满足多业务场景下的平台和数据需求。数据中台项目实施后,数据 开发平均周期从5天缩短至1.5天。 此项目中,数据采集模块,应用openLooKeng跨域能力 精准营销 产品管理 客户管理 风险管控 企业战略 监管报送 客户服务 ... 政府单位数据中台 数据治理 数据集成 指标管理 数据模型 运维监控 数据门户 数据服务 …… 分布式文件系统 批量计算引擎 实时计算引擎 消息总线服务 资源管理 … 数据中心 openLooKeng openLooKeng 各委办局 Hive Oracle Hbase 大数据局 Hive Oracle Hbase