基于边缘计算的适用于大数据和 人工智能新一代计算架构

基于边缘计算的适用于大数据和人工智能新一代计算架构
展开查看详情

1. ) TC BD IOTA 大数据架构 ( 会 大 基于边缘计算的适用于大数据和 术 人工智能新一代计算架构 技 据 (内附开源大数据平台测试报告) 数 大 易观 CTO 郭炜 国 中 18 20

2. ) TC 现代企业大数据困境 BD ( 会 大 大数据 人工智能 术 “大而不强” 人工”而不“智能” 技 据 数 大 国 中 18 20

3.20 18 中 国 大 数 据 技 现代企业大数据困境 术 大 会 ( BD TC )

4. ) TC CTO/CIO在大数据方面的挑战 BD 产品展现与服务集群 对外服 务 ( 易观千帆 易观方舟 易观博阅 易观万像 大数据处理集群 对内服 会 务 • 大数据人员不足 数据发布与订阅平台 数据治理 服务 eSquirrel 分布式实时处 数据调度与资源 分布式存储与查询平台 元数据 大 理 • 大数据存储永远不够 统一任务调度 通用数据查询引擎 挖掘引擎 管理 内部查询计 Spark 数据口 批量查询 Ad-hoc查询 实时 术 算 径 业务分析多变难以满足 分布式资源管理 • 基础 Hive Greenplum 统计 Presto 数据 Storm 服务 分量统计 数据质 数据服务监控 HDFS 汇总 技 量检测 • IOT,移动端,CRM数据 分布式数据流转平台 数据安 分布式小数据总线 全鉴权 繁杂不统一 据 分布队列监控与配置 云端数据接收群 SDK+LVS+Netty 分布队列组件(eKfaKa) 云端离线数据接收群 SDK+LVS+Netty (eThrift) 本地离线数据接收群 SDK+LVS+Netty 实时数据队列(streaming) 本地实时数据接收群 SDK+LVS+Netty 数据审 计 数 • 数据量级巨大 数据采集于预处理 大 国 Andriod SDK IOS SDK H5 SDK 微信小程序 SDK 中 18 20

5. ) IOTA 数据架构 TC BD 基于边缘计算的适用于大数据和人工智能新一代计算架构 ( 会 Web Edge Real Time Data 大 SDK Android Cache 术 Edge Common Data SDK Model 技 Standard Query 小程序 Format Engin Edge SDK 据 Dump er e 数 摄像头 Realtime Model Common Data Edge Feedback Model 大 Server& SDK 国 Historical data storage IoT Edge 中 SDK 18 20

6. ) TC IOTA 数据架构 BD 基于边缘计算的适用于大数据和人工智能新一代计算架构 ( 会 大 • 去ETL化架构 术 • 非结构化实时结构化为SQL数据存储 技 • 支持IOT设备与现有移动端数据融合 据 数 • 支持边缘AI实时反馈 大 国 中 18 20

7. ) TC IOTA vs Lambda BD ( Web 会 Real Time Data 每次都要开发不同 大 的 Steamming , 开 REAL-TIME 发周期长 Android Streaming 术 Streaming 1 采集格式1 Streaming 2 Result 技 小程序 Data- base 据 Batch Data ETL 1 数 摄像头 采集格式2 同一个数据实时和批量处理 ETL2 不同 大 每次都要开发不同 Historical data storage 的 ETL , 数 据 不 能 要适配各种采集格式 实时展现 IoT 国 中 18 20

8. ) TC IOTA vs Kappa BD ( Web 会 Real Time Data 大 Android REAL-TIME 术 Streaming 每次都要开发不同 采集格式1 的 Steamming , 开 Streaming 1 Result 技 Streaming 2 发周期长 小程序 Data- Historical data storage base dead” 据 Neha Narkhede “ETL is 不能即席查询和训练 数 采集格式2 摄像头 大 Historical data storage 要适配各种采集格式 IoT 国 中 18 20

9. ) TC IOTA 数据架构 BD —核心模型Common Data Model ( 会 大 术 技 据 数 大 国 • Common Data Model:贯穿IOTA架构始终的数据模型 中 例如:“主-谓-宾”模型 “X用户 – 事件1 – A页面(2018/4/11 20:00) ”。 18 20

10. ) TC IOTA 数据架构 BD —核心组件Edge SDK ( 不仅仅是过去的简单的SDK,在复杂的计算情况下,会 会 交互层 赋予SDK更复杂的计算,在设备端就转化为形成统一的 大 数据模型来进行传送。 边缘计算层 术 技 智能Wi-Fi采集的数据: Common Cache X用户的MAC 地址-出现-A楼层( 2018/4/1118:00)” DB 对于摄像头会通过Edge AI Server 据 数 AI策略层 “X的Face特征-进入-A火车站(2018/4/11 20:00)” 大 网络层 国 智能音箱 X用户-启动-Y设备 (2018/4/11 20:00) 中 18 20

11. ) TC 数据驱动的中台 BD —未来企业的大数据数据河 ( 会 • IOTA架构数据河 大 • 数据源 术 • 数据消费者 技 • 数据治理问题 • 为什么是IOTA架构 据 • 大数据三角洲 数 大 • 大数据耕种者 国 • 数据湖 中 18 20

12. ) TC 数据驱动的中台 BD —企业大数据水生态 ( • 数据水源生态 会 大 • IOTA架构体系 • 实时性 术 • 消费者 技 • 水坝 据 数 大 国 • 多方协同 中 18 20

13. ) TC 一个IOTA架构引擎的实例 BD —易观秒算 数据接入子模块 即时数据处理模块 查询引擎 方舟应用 ( • 去“ETL”化 会 • 高效:时时入库即时分 EventMR ProfileMR Web Presto DataAPI 析 Server 大 • 稳定:经过易观5.8Pb, 5.2亿月活数据锤炼 MergerMR DumpMR 术 存储引擎 第三方应用 Netty Extracto Kafka • 跨数据库:天然支持 技 r HBase Super “Data Federation”数 ERP Set 资源管理 据联邦针对Mysql等数据 库跨库查询 据 数 YARN Dispatch HDFS Data Mining CRM • 便捷:支持SQL级别的二 大 次开发和UDAF定义 集群管理监控 第三方数据存储 国 • 扩充性强:组件基于 Ambari 中 Apache开源协议,可支 MySQL Spark 18 持众多开源存储对接 Import Tools Java/C/PHP SDK Android/iOS SDK JS SDK 20

14. ) TC 常见开源大数据引擎测试 BD • Hadoop(2.7) ( • Hive(2.1) 会 大 • HAWQ(3.1.2.0) TPC-DS测试 术 • Presto(0.211) 技 易观单表测试 • Impala(2.6.0) 据 • sparksql(2.2.0) 数 大 • clickhouse(18.1.0-1.el7) 国 • greenplum(5.7.0) 中 18 20

15. ) TC 常见开源大数据引擎测试 BD ( TPC-DS测试 会 Hawq presto(orc格式) Impala(parquet格式) spark-sql(orc格式) ClickHouse 180 大 160 术 140 120 技 时间(s) 100 80 60 据 数 40 大 20 0 国 sql_01 sql_02 sql_03 sql_04 sql_05 sql_06 sql_07 sql_08 sql_09 sql_10 sql_11 sql_12 sql_13 sql_14 sql_15 SQL语句 中 18 20

16. ) TC 常见开源大数据引擎测试 BD ( 单表测试 会 Hawq presto(orc格式) Impala(parquet格式) spark-sql(orc格式) ClickHouse 大 160 140 术 120 技 100 时间(s) 80 60 据 数 40 大 20 0 国 sql_01 sql_02 sql_03 sql_04 sql_05 sql_06 sql_07 sql_08 sql_09 SQL语句 中 18 20

17.20 18 中 国 大 数 据 技 常见开源大数据引擎测试 术 大 会 ( BD TC )

18. ) TC 易观秒算-数据收集 BD Ingestion ( • 传输加密 会 Netty Kafka • 策略控制 大 • 服务器可以随时更改发发送策 术 略,比如发送频率调整,重试 技 频率 据 • 发送策略优先级: 服务器策略 >debug>用户设置>启动、间 数 隔策略 大 • 服务器约束示例 国 • 根据上传版本号来判断。 中 18 20

19. ) TC 易观秒算-实时存储 BD WareHousin 实时存储 ( g • HDFS高效存储 会 • Orcfile存储 HBase • 以天分区 • 基于用户ID,触发时间排序 大 • BloomFilter • 稀疏索引 HDFS 术 Warehousing 技 稀疏索引 在线查询 属性名 最大值 最小值 用户ID 2 1 据 数 Presto 事件名 orange apple 数据有序 大 物品名 sell buy 用户ID 事件名 物品名 价格 数量 触发时间 国 价格 3 2 1 buy orange 3 5 2018-04-01 数量 100 5 中 1 clean apple 2 10 2018-05-02 触发时间 2018-04-01 2018-09-03 1 buy apple 2 15 2018-06-03 18 2 sell apple 2 100 2018-09-03 20

20. ) 易观秒算-Quering TC BD WareHousin ( g • 基于Presto的二次开发 会 HBase • Hbase-Connector定制开发 大 • 通过视图View建立热数据与历史数据的联合计算 HDFS 术 Warehousing • Session,漏斗,留存,智能路径等模型的算法实 现 llvm@6 技 Quering 据 数 Presto 大 国 中 18 20

21. ) TC 易观秒算-漏斗查询 BD WareHousin ( g 会 大 术 技 据 数 大 国 中 18 20

22. ) TC 易观秒算-优化策略 BD WareHousin ( g 优化大表查询 基于用户 会 的采样 大 BloomFilter 术 1.Hdfs历史数据 2.当前最新数据 技 稀疏索引 据 数 大 国 中 18 20

23. ) TC 典型的企业水生态数据驱动营销闭环平台 BD ——易观方舟 CRM ( 生命周期管 AP 小程 第三方数据接 理 会员营销 H5 WEB P 序 入 AI合作伙伴 会 忠诚度维护 会员体系 用户画像 风险控制 大 数据更新 数据接入 营销工具 服务端 术 智能分群 智能触达 EDM AD 技 数据库 SMS MMS 用户行为分析模型 数据应用 用户数据资 数据存 储计算 转化漏斗 事件分析 据 产数据库 日志 客户中心 数 In-Bound 客服 数据分析 API 留存分析 用户画像 PaaS平台 大 Out-Bound 营销 国 用户分群 路径分析 合作伙伴开 放API 订单系统 中 商品 交易 数据挖掘与商业智 机器学习算法建立模 人工智能的商业创 18 能 型 新 支付 评价 20

24. ) TC 易观方舟——数据驱动营销闭环 BD ( 会 大 术 技 渠道分析 转化分析 人群细分 用户触达 效果评估 寻找优质渠道 据 提升关键路径转化 识别高价值用户 提升触达效果 营销效果提升 数 • 发现量级高的渠道 • 探索式发现用户的关键行 • 整合自有数据和第三方数据掌握 • 一站式的平台,提高效率 • 以营销活动页为起点的转化分 为,建立业务关键路径 用户全景画像; • 整合IN-APP、短信、EDM等多渠 析,提升营销活动效果 • 发现高质量渠道 • • 大 • 提升用户的转化效果 识别高价值用户、潜在购买人群 道对用户进行全方位地触达; 针对未响应人群、未购买人群、 • 提升渠道ROI • 降低用户流失 进行产品升级营销、交叉营销、 • 分群个性化触达用户,不仅触达 分批次、分波次,不同活动创 复购营销,提升用户的LTV 更需要触动 意进行营销,提升效果 国 中 18 20

25. ) TC 1亿元资金共同打造用户行为大数据水生态 BD ( 18年积累的3000+客户 累计23.2亿 月活5.9亿数据资源 会 大 术 技 据 数 IOTA架构的方舟PaaS 深入行业的业务分析场景 大 营销效果提升 寻找优质渠道 • 以营销活动页为起点的转化分析,提升营销活动效果 • 针对未响应人群、未购买人群、分批次、分波次,不同 • 发现量级高的渠道 活动创意进行营销,提升效果 • 发现高质量渠道 国 • 渠道归因发现真正价值来源 成长 提升关键路径转化 提升触达效果 中 • 探索式发现用户的关键行为, • • 一站式的平台,提高效率 整合IN-APP、短信、EDM等多渠道对用户进行全方位地触 建立业务关键路径 达; • 提升用户的转化效果 • 分群个性化触达用户,不仅触达更需要触动 • 降低用户流失 18 • 用户 识别高价值用户 识别高价值用户、潜在购买人群进行产品升级营销、交叉营销、复购营销,提升用户的LTV 20

26.20 18 中 国 大 数 谢 据 技 术 大 会 谢! ( BD TC )