IOTA数据架构-陈超民-易观

主要分享IOTA数据架构的优势并逐一详细介绍: 去ETL化架构 高度抽象的数据模型,Common Data Model 边缘计算(Edge-SDK) 支持Ad-hoc查询
展开查看详情

1. IOTA 数据架构 
 ——基于边缘计算的适⽤用于⼤大数据和⼈人⼯工智能新⼀一代计算架构

2.现代企业⼤大数据的困境 ⼤大数据 ⼈人⼯工智能 “⼤大⽽而不不强” ⼈人⼯工”⽽而不不“智能”

3.现代企业在⼤大数据的挑战 产品展现与服务集群 对外服务 易易观千帆 易易观⽅方⾈舟 易易观博阅 易易观万像 ⼤大数据处理理集群 对内服务 ● 需求:业务分析多变难以满 数据发布与订阅平台 数据治理理服务 数据调度与资源 分布式存储与查询平台 eSquirrel 分布式实时处理理 元数据 ⾜足 统⼀一任务调度 通⽤用数据查询引擎 挖掘引擎 管理理 Spark 内部查询计算 批量量查询 Ad-hoc查询
 实时 数据⼝口径 分布式资源管理理 统计 ● 数据源: IOT,移动端, Presto Hive Greenplum 基础数据 Storm 服务 分量量统计汇 数据质量量检 数据服务监控 HDFS 总 测 CRM数据繁杂不不统⼀一 分布式数据流转平台 数据安全鉴 权 分布队列列监控与配置 分布队列列组件(eKfaKa) 分布式⼩小数据总线(eThrift) 实时数据队列列(streaming) ● ⼈人员:⼤大数据⼈人员不不⾜足 云端数据接收群 SDK+LVS+Netty 云端离线数据接收群 SDK+LVS+Netty 本地离线数据接收群 SDK+LVS+Netty 本地实时数据接收群 SDK+LVS+Netty 数据审计 ● 存储:⼤大数据存储永远不不够 数据采集于预处理理 ● 计算:数据量量级巨⼤大 Andriod SDK IOS SDK H5 SDK 微信⼩小程序 SDK

4.现代企业⼤大数据困境

5.数据驱动的中台 —未来企业的⼤大数据数据河 - 流⽔水不不腐,户枢不不蠹 • IOTA架构数据河 • 数据源 • 数据消费者 • 数据治理理问题 • 为什什么是IOTA架构 • ⼤大数据三⻆角洲 • ⼤大数据耕种者 • 数据湖

6.Lambda 数据架构
 Web Real Time Data 每次都要开发不不同的 Steamming,开发周 REAL-TIME Android 期⻓长 Streaming Streaming 1 采集格式1 Streaming 2 Result ⼩小程序 Data- base Batch Data ETL 1 采集格式2 同⼀一个数据实时和批量量处理理 摄像头 ETL2 不不同 每次都要开发不不同的 Historical data storage ETL,数据不不能实时 要适配各种采集格式 IoT 展现

7.IOTA 数据架构 基于边缘计算的适⽤用于⼤大数据和⼈人⼯工智能新⼀一代计算架构 Web Edge SDK Real Time Data Android Cache Edge SDK Common Data Model Standard ⼩小程序 Format Query Dumper Engine Edge SDK 摄像头 Realtime Model
 Common Data Edge Feedback Model Server& SDK Historical data storage IoT Edge SDK

8.IOTA 数据架构 基于边缘计算的适⽤用于⼤大数据和⼈人⼯工智能新⼀一代计算架构 ✓去ETL化架构 ✓⾼高度抽象的数据模型,Common Data Model ✓边缘计算(Edge-SDK) ✓⽀支持Ad-hoc查询

9.IOTA 数据架构 —⾼高度抽象的核⼼心模型Common Data Model • 贯穿IOTA架构始终的数据模型 ⽤用户⾏行行为模型:“主-谓-宾”模型 例例如的场景: • 智能⼿手表:X⽤用户 – 进⾏行行了了 – 游泳运动 • 视频APP: X⽤用户 – 播放 – 影⽚片 • 电商⽹网站:X⽤用户 – 购买 – ⼿手机( 2018/4/1118:00 , IP , GPS)”

10.IOTA 数据架构 —核⼼心组件Edge SDK 在“强”终端计的当下,不不仅是过去的简单的 交互层 SDK,会赋予SDK更更多的⻆角⾊色。 边缘计算层 Common
 ✓ 采集:统⼀一模型,Common Data Cache DB Model AI策略略层 ✓ 计算:边缘计算、预处理理(校验) ✓ 策略略:与服务端交互,随需调整策上报 ⽹网络层 策略略

11.⼀一个IOTA架构引擎的实例例 —易易观秒算 数据接⼊入⼦子模块 即时数据处理理模块 查询引擎 ⽅方⾈舟应⽤用 ✓ 去“ETL”化 ✓ ⾼高效:时时⼊入库即时分析 EventMR ProfileMR Presto DataAPI Web Server ✓ 稳定:经过易易观5.8Pb, 5.2亿⽉月活数据锤炼 DumpMR MergerMR 存储引擎 第三⽅方应⽤用 ✓ 便便捷:⽀支持SQL级别的⼆二 Netty Extractor Kafka HBase Super 次开发和UDAF定义 ERP Set 资源管理理 ✓ 扩充性强:组件基于 YARN Dispatch HDFS Data Apache开源协议,可⽀支持 Mining CRM 众多开源存储对接 集群管理理监控 第三⽅方数据存储 Ambari MySQL Spark Import Tools Java/C/PHP SDK Android/iOS SDK JS SDK

12.易易观秒算-数据收集 Ingestion • 传输加密 Netty Kafka • 策略略控制 • 服务器器可以随时更更改发发送策略略,⽐比如 发送频率调整,重试频率 • 发送策略略优先级: 服务器器策略略>debug>⽤用 户设置>启动、间隔策略略 • 服务器器约束示例例  • 根据上传版本号来判断。

13. 易易观秒算-实时存储 实时存储 WareHousing • HDFS⾼高效存储 HBase • Orcfile存储 • 以天分区 • 基于⽤用户ID,触发时间排序 • BloomFilter • 稀疏索引 HDFS Warehousing 稀疏索引 在线查询 属性名 最⼤大值 最⼩小值 ⽤用户ID 2 1 Presto 事件名 orange apple 数据有序 物品名 sell buy ⽤用户ID 事件名 物品名 价格 数量量 触发时间 价格 3 2 1 buy orange 3 5 2018-04-01 数量量 100 5 1 clean apple 2 10 2018-05-02 触发时间 2018-04-01 2018-09-03 1 buy apple 2 15 2018-06-03 2 sell apple 2 100 2018-09-03

14.易易观秒算-Quering WareHousing • 基于Presto的⼆二次开发 HBase • Hbase-Connector定制开发 • 通过视图View建⽴立热数据与历史数据的联合计算 HDFS Warehousing • Session,漏漏⽃斗,留留存,智能路路径等模型的算法实现 llvm@6 Quering Presto

15.易易观秒算-漏漏⽃斗查询 WareHousing

16.易易观秒算-优化策略略 WareHousing 优化⼤大表查询 基于⽤用户的 采样 BloomFilter 1.Hdfs历史数据 2.当前最新数据 稀疏索引

17.典型的企业⽔水⽣生态数据驱动营销闭环平台 ——易易观⽅方⾈舟 CRM ⽣生命周期管理理 会员营销 APP H5 ⼩小程序 WEB 第三⽅方数据接⼊入 AI合作伙伴 忠诚度维护 会员体系 ⽤用户画像 ⻛风险控制 数据更更新 数据接⼊入 营销工具 服务端 智能分群 智能触达 EDM AD 数据库 SMS MMS ⽤用户⾏行行为分析模型 数据存 数据应⽤用 ⽤用户数据资产 储计算 数据库 ⽇日志 客户中心 转化漏漏⽃斗 事件分析 In-Bound 客服 API 留留存分析 ⽤用户画像 数据分析 PaaS平台 Out-Bound 营销 ⽤用户分群 路路径分析 合作伙伴开放 API 订单系统 商品 交易易 数据挖掘与商业智能 机器学习算法建立模型 人工智能的商业创新 ⽀支付 评价

18. THANKS 易易观千帆试⽤用 易易观⽅方⾈舟试⽤用