- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
如何高效应对当下的实时场景需求?
展开查看详情
1 . 实时数据赛道领跑者 如何应对当下实时数据场景 实时数据架构盘点及优劣势解析 杨庆麟 / Arthur Tapdata 首席架构师 MAKE YOUR DATA ON TAP
2 .关于我 杨庆麟 / Arthur Tapdata 首席架构 ü 3 年线上、线下企业大数据培训 ü CSDN 认证博客专家 ü 公众号累计30w+粉,运营矩阵号10+ ü 主导多个 DaaS 项目,涉及零售、制造、教育、军方、交通 运输、医疗等行业
3 .希望今天你会收获以下 ü 回顾当下企业的数据现状 ü 了解已有的实时数据集成场景 ü 掌握常用的实时数据集成架构和中间件 ü 探索新一代企业级数据平台的技术架构 ü 新老数据集成架构的技术对比
4 . 目 录 C O N T E N T S 01 02 03 04 企业数据现状 新⼀代企业级 Tapdata 关于我们 及实时数据场景 数据集成平台 最佳实践
5 . 01 企业数据现状 及实时数据场景
6 .实时数据对企业的业务影响 影响工厂产能 阻碍销售开单 某国内大型半导体制造厂商,通过 MES 统 某珠宝行业,店员通过商品中心完成调货/ 一调度生产线上的机械臂,完成芯片制造 取货/查货,数据不实时,就会流失订单 产能受限: 由于信号数据推送间隔在 10 分 商机流失: 无法知道其他渠道是否有想要 钟以上,数据之间有依赖,致使机械臂空 商品的库存 闲时间多 商品信息在多套系统维护,没有准确一致 基台告警不实时: 无法实时获取设备状态, 的信息 产线安全无法得到保障
7 .数据集成的解决方案演进 人肉手工 消息总线 事件流中间件 • 定制 API 开发 • ESB • Kafka ETL • 强耦合 • 开发量不少 • ETL • SOA 噩梦 • 链路长、多 • 应用双写 • Camel / MQ • 很多开发量 tapdata.net 7
8 .不同数据集成方案在企业中的现状 MES API 集成 SCRM ERP 实时库存 CRM 客户 ETL 数据平台 BPM 全渠道 商品中心 Finance Kafka 实时看板 CMS Channel BI 报表 现有业务 新业务
9 .新一代企业级数据平台:以服务化方式为下游业务提供数据 MES SCRM Data as a Service ERP 实时库存 CRM 客户 数据平台 BPM 全渠道 商品中心 Finance 实时看板 实时同步 计算处理 API 服务 CMS 最后一次ETL 数据存储 推送服务 BI 报表 Channel 现有业务 新业务
10 . 02 新⼀代企业级 数据集成平台
11 . 实时数据平台整体架构 CDC Stream Process Storage Service Capture 计算与处理 中央化存储 发布与服务 采集与同步 OLTP DBS OPERATIONAL APPLICATIONS PLUGIN Framework Web PRODUCT SaaS/ Enterprise software Microservice s CRUD ERP API Mobile ORDER CRM OPERATIONAL ANALYTICS 3rd Party APIs INVENTORY Structured data Logs Reverse ETL File and Object CUSTOMER STorage Events
12 . 实时数据平台的核心技术路线 基于WAL日志的 中央化存储 1 3 实时异构同步 2 数据开发建模 数据发布 API 4 1 3
13 . 实时数据同步方式 1. 基于时间戳或者增量字段: select * from events where event_time > $last_time_sql_run 缺点: 不支持删除,不是所有表都具有这种字段 2. Trigger,依赖于数据库触发器 CREATE TRIGGER ORDER_EVENTS -> AFTER INSERT ON ORDERS -> FOR EACH ROW -> INSERT INTO ORDER_EVENTS -> VALUES (NEW.id,NEW.event,NEW.ts); 缺点:对源库性能有较大影响 3. 基于数据库WAL日志实时采集 缺点:非标,实现困难 1 4
14 . 核心技术:异构数据实时复制 1 5
15 .CDC 工作原理
16 .全面数据库支持,包括国产数据库 传统关系型数据 国产数据 现代化数据管理 其他 全面的数据库支持 库 库 全面支持主流的开源数据库及商业数据库以及消息类中间件,包括:MongoDB、 MySQL、Oracle、SQL Server、DB2、elastic、Kafka、Sybase、PostgreSQL、 Redis、GaussDB等。 非侵入式数据同步 基于数据库日志文件,无须安装插件,秒级同步 DML 和 DDL 操作 纯国产自研 软件纯国产自研,技术可控,对国产数据库支持好。 多任务并行和高并发 支持多任务可视化运行监控,单节点 240GB/小时吞吐量,支持多节点横向扩展部署 多数据源异构数据库支持 完美的JSON支持,支持从关系型数据库到非关系型数据实时同步,同时支持一对一、 多对一、一对多等多种建模方式,轻松实现数据库现代化。
17 .数据开发 - 卓越的使用体验 可视化完成数据采集+处理 Open ETL API 无代码或低代码 无需SQL,面向开发者
18 .中央化存储方案:DaaS API:统一数据服务及数据发布 MDM: 面向领域的主题数据 中央化存储 FDM: 数据镜像层 ü 多源异构数据实时汇聚到中央化平台 ü 为所有下游数据驱动业务提供实时,完整, 准确的企业数据 tapdata.net
19 .数据发布 API API 移动应用 数据消费 分发服务 客户端 API 服务 API 服务 性能监控* 流量管理* 器 器 API API 文档 进程管理 服务 权限管理 API设计器 Shard1 Shard2 Shard3 Shard4 数服 中台 数据发布 page 021
20 . 物理架构图 服务 功能模块 HOST 硬件配置 Oracle Tapdata Management 数据治理引擎 CPU:16c Oracle API Server tapdata-01 Tapdata API Server 管理模块 RAM:64GB M ySQL tapdata-02 SQLServer Management Tapdata Flow Engine API 发布节点 DISK:100GB Flow Engine 数据同步 M ongoDB mongodb-01 CPU:16c MongoDB MongoDB Tapdata MetaDB mongodb-02 RAM:64GB tapdata-02 Kafka mongodb-03 DISK:1TB Kafka API API Server 分部/总部单点架构说明: HA & LB Management 数据发布 Real tim e 1. Tapdata Management:负责软件各模块调度和网页控制台展现。 Dashboard TXT/CSV Flow Engine 2. Tapdata API Server:负责数据发布及 API 网关。 Reports 3. Tapdata Flow Engine:负责数据同步、清洗、多表关联、聚合计算等。 Logs tapdata-01 4. MongoDB:Tapdata 数据库,中间缓存结果。 Apps 2 节点可支持负载均衡及高可用,保证单点故障后的任务自动接管及断点续 元数据库 传 MongoDB MongoDB MongoDB mongodb-01 mongodb-02 mongodb-03 22
21 . 03 Tapdata 最佳实践
22 . 项目背景 • 当前挑战 • 诉求(希望达到的目标) • 客户简介 • 商品、订单、库存数据分布 • 全渠道商品中心:提供 • 中港台澳四地扬名显赫的黄金珠宝企业 在多套系统,数据冗余 更好的客户体验 • 大陆门店数量几百家, • 上新活动周期长 • 快速响应业务(线上线 • 年营业额超百亿 • 无法获得最准确的商品库存 下活动) • 已有系统过于陈旧,更新、 • 业务背景 维护困难 • 与第三方电商、社交、媒体平台打通 • 数百家门店线上线下活动过万 • 业务需求旺盛,产品快速迭代适应市场 • 成功指标 • 需要的能力 • 搭建基于 MongoDB 的 • 统一数据融合平台 DaaS 平台 • 低代码快速开发数据 • 开发主数据模型,包括:商 品模型、订单库存模型 • 发布主数据 API page 024
23 .实时数据服务平台最佳实践 实时数据服务平台案例 客户核心诉求实现 ü 支持全渠道销售业务 /api/v1/discount /api/v1/inventor s y 实时统一多套系统的库存和 智能化重构建模 /api/v1/product /api/v1/orders 商品信息,从0到1支撑了全 PRODUCT INVENTORY 渠道营销业务 { { product_id:xx lastModifiedDate: xx, catalogItem: xx, masterCatalogItem: xx, productStatus: xx, modelSequenceNumber: xx, inventoryClass: string, ü 大幅提升开发效率 productType: xx, model: { ADM业务数据层 sku: xx, modelNbr:xx, inventoryId: xx, modelSeqNbr:xx, itemNumber: xx, MDM主数据层 productType:xx originalPrice:: xx, } } } } 支撑前端的数据API开发上 FDM基础数据层 多表关联模型 线时间从数星期降到到了2 实时转为宽表 天 实时数据同步处理 ü 构建主数据库提高复用 数据不一致、位置凌乱的问 题得到妥善解决,治理好的 CNPOS CNW H H KPOS H KW H TW POS TW W H M CPOS M CW H 主数据提高了复用,减少重 复成本
24 .创建数据源 1. 选择需要创建的数据源类型 2. 填入连接串信息 page 026
25 .FDM:同步 9 个 oracle 数据到 mongo page 027
26 . 构建商品明细表 1 - 通过设定主子表关联关系,完成宽表,例如右图 #1、#2 - 在实时同步链路中引入加工逻辑,完成数据准备, 例如:空值判断、计价单位统一等 2 - 形成符合开发者习惯的 JSON 自然模型对象,方 便业务理解业务关系,例如:价格,可以通过以 下方式表示: { price: { cn: 98.88, hk: 115.69, tw: 440, us: 0.15, } page } page 028 028
27 . 平台级数据校验 ü 保证数据一致性 多种校验方式: - 条数校验 - 主键校验 - 行级校验 - 高级数据校验 多种校验周期: - 定时校验:每天 1 点校验 1 次 - 轮训校验:1 个小时校验 1 次 - 分钟级动态校验 错误数据二次校验 错误数据修复 page 029
28 .企业级运行监控指标 监控页面提供完整的指标监控 - 当前任务同步时间点 - 任务/节点同步数据条数 - 任务/节点同步性能指标 - 任务/节点同步数据传输耗时 - 任务/节点同步延时 - 完整日志输出 page 030
29 . 01 公司概况 Tapdata 简介