Big Data Global Practice and Arch Evolution in Lenovo

Introducing Lenovo's seven years of big data platform practices, gradually expanding from departmental support to supporting Lenovo's hundreds of millions of products and users worldwide, extending from China to global coverage, and how to address the global data privacy protection and large-scale data cross-regional Access and multiple mixed computing issues.
展开查看详情

1.Big Data Global Practice and Arch evolution in Lenovo 联想全球制造大数据平台的架构演进及技术创新 Yu Chentao / Chief Architect, ED of Lenovo, 2018/6

2.关于我 于辰涛,联想集团执行总监,首席研究员 • 国家教授级高级工程师,中关村领军人才 • 北京理工大学自动化学院兼职研究员 • 科技部国家科技重点研发计划专家,网信办大数据和云计算安全专家 • 中国云计算和大数据青年科学家联盟,工信部信通院数据中心联盟大数据发展促进委 员会副主任委员,CCF TF大数据专家委员会委员 研究领域:工业物联网,工业智能,云计算,大数据,工业安全 项目经验: • 主持建设联想智能制造全球云化平台,上百个内部数字化转型项目 • 联想工业大数据产品总体架构师 • 数十家骨干企业提供工业大数据和工业智能优化解决方案 重要奖项: • 领导联想工业智能团队获得了2017 Kaggle数据科学竞赛全球金奖,中国大数据50强,工信部年度大数 据优秀案例,中国软件技术博览会金提名奖等荣誉 专利: • 主导建立了联想工业智能和云计算领域专利壁垒,个人申请发明专利超过110件 2

3. 六年时间,构建联想工业大数据平台,支撑全球2亿多台设备的全价值链优化能力, 国内最大的企业支撑集群 全价值链的产品和业务优化 覆盖全球的大规模云化部署 • 用户需求驱动的产品研发闭环,构建了面向产品全流程的敏 • 全球10个数据中心,日增30TB,日分析数据10PB 捷化和精细化优化能力 • 实时管理全球2亿台联想设备,31家智能工厂,6亿应用用 • 用户价值驱动的新型供应链,支持联想千万产品的按全球消 户,1600亿条数据,已接入内部数百个业务系统 费者需求个性化柔性生产 • 数据处理完全合规,帮助联想构建全球化数据整合能力 • 产品质量实时追踪,关键环节预测和优化 3

4.支撑500多个大数据场景优化 -全面提升产品研发,生产,供应链,客服等关键环节的运营效率 产品研发管理 生产制造优化 供应链管理 销售渠道管理 10s内全球亿级设备的产品追踪和量 70%产品个性化定制生产,数万个 供应链预测准确性提升10~20% 超过200万家,全球渠道和经销商潜在 化分析能力 配置组合 商机挖掘,提升商用业务效率 用户使用追踪 客户服务优化 设备质量和备件优化 用户洞察 用户使用全程闭环,通过ID打通全球 20分钟内,全球全网用户舆情和用户 2000+部件的全面备件优化,实时 亿级用户的画像,千种不同用户标签, 亿级设备 反馈监测,并做出响应 监控产线,优化制程 细分目标用户 4

5.不仅在联想内部深入实践,而且也广泛服务于大型骨干企业转型升级 01 02 03 04 05 智能化研发 智能化采购 智能化生产 智能化销售 智能化服务 采购提前期预测 动态智能排产 需求/销量预测 产品预防性 产品持续改进 维护&服务 现场设备预防性 来料质量预测 精准营销 新品立项模拟 维护&服务 舆情分析 供应商健康评级 持续质量管理 分销商行为分析 备品备件 文档搜索优化 采购行为健康评级 成品仓优化 客户画像 预防性服务 人员资质能力图谱 原材料价格预测 能耗、环境分析 货物调拨优化 服务评价 5

6.挑战之一,如何实时处理产线设备及终端设备的反馈,实现生产过程智能化 复杂工业连接 实时可靠生产协作 • 超过150中不同的工业控制协议 • 海量数据量,必须实时处理完成 • 支持主流CoAP、MQTT、OPC-UA、TCP、UDP、WebSocket等多 • 生产协作需要对接MES,PLM,TSDB等工业系统环境 种数据源的接入 • 可靠性要求高,单机需要持续数月的稳定运行能力 • 专有工业协议,获取数据,需要额外付费 6

7.挑战之二,如何处理企业管理系统的海量异构数据,实现管理流程数字化 •43 供应商, 500+ 应用 本地部署 云解决 开源或 •170 套商务套件, 185 套自开发应用 商务套件 方案 自开发方案 商务市场门户 服务 直接面向消费者 面向客户 的应用 销售与市场 商务智能 敏捷的 前端 供应链 产品管理 可靠的 后端 …… 技术平台与 联想自有基础设施 公有云 基础设施 7

8.挑战之三:如何用人工智能技术发现数据的潜在价值,实现决策过程的自动化 产品价值链 产品创新 需要扩充 迫在眉睫 差别化竞争 区域化差异 数据智能 Time-to-Market 的诉求 ? Time-to-Volume 的期望 定制化需求 维护成本高 数据量大频率高 供方市场协作分析 需方市场协作分析 单品价格高 操作复杂 2016 Lenovo Internal. All rights reserved. 衰退轨迹不可见 8

9.数据平台 1.0 ( 2010~2014 ) 大数据技术应用的启蒙与拓荒 2017 Lenovo Internal. All rights reserved. 9

10.主要解决的问题 • 应用的细粒度分析,帮助业务建立量化分析能力 • 定制化的统一Dashboard,分析软件和设备的日活,留存,关键路径,软件异常 等 产品管理 实时激活分析 销售地域分析 用户舆情分析 设备用户分析 应用使用分析 设备开发 和优化 软件版本管理 无线质量分析 系统错误分析 内存可用性分析 开关机分析 产品质量 提升 平均无故障时间 用户试用产品深度分析 关键部件质量分析 产品质量预测 10

11.1.0 架构图(2010~2014),以整合好开源技术为主要目标 数据分析 定制化 UI Zookeeper Yarn 数据计算 Spark Hive Redis Process & SQL ETL Real-time Hadoop HDFS Engine 数据采集 Reaper Kafka Device/Apps 11

12.全图形化集群配置管理,实现了千台集群的可视化运维 全图形化平台运维 ü 主机管理:提供快速配置大数据集群主机 脚本,批量初始化服务器环境、拷贝安装 平台介质; ü 服务管理:支持向导式平台配置,对主机、 服务等快速配置; ü 服务配置:根据选取的服务,自动检测资 源匹配度,如CPU、内存资源是否符合服 务启动需要; ü HA配置:提供全组件的HA服务与配置管 理,包括Manager节点在内 12

13.SQL的一站式图形化编辑和执行工具,实现了计算引擎的透明化 • Supports multiple data sources: MySQL, Impala, Spark, Hive select data sources view data tables edit SQL statement execute SQL statement view query history add data source 13

14.新的流程调度引擎,替换Oozie,实现万条计算任务的图形化调度和管理 • Conveniently define the process, view process status, re-execute process. create new process process query view process instance 14

15.平台1.0架构的主要问题 • 几颗老鼠屎,坏了一锅汤 – 单层的集群架构,上千台各种配置的服务器放在一起,难于性能优化和定位问题 – Yarn配置参数极其复杂,后续难于维护 – 开源软件更新太快,互相之间的版本关联难于管理 • 裸奔的元数据 – 数据缺少安全保护,这时的Hadoop没有满足要求的安全框架 • 只有设备/应用数据,没有企业数据 • 实时性差 – 大多是批量计算任务,无法为实时业务决策做出支持 • 业务人员不会编程 – 数据应用需要开发基础,无法帮助没有任何编程能力的业务分析人员 15

16.平台2.0(2014~2016 ) 大数据全球化部署,全面整合企业数据之路 16

17. 平台2.0 — 企业数据智能需求的爆发 业务需求 平台能力 产品 供应链 市场和销售 服务 财务/人力资源 联想统一数据平台 用户案例 ▪ 新品立项分析 ▪ 需求预测 ▪ 客户画像 ▪ 部件预测 ▪ 每日损益报告 ▪ 持续改进 ▪ 采购分析 ▪ 精准营销 ▪ 预防性维护 ▪1 全球数据整合: 存储企业的全球运 ▪ 功能优化 ▪ 流失率预测 维、设备+云、客户数据(属性, 行为数据)、外部数据 即席查询 BI报告 多维分析 深度学习 ▪2 全球数据治理: 数据本地采集,本 数据平台 地计算,遵守当地国家有关用户数 据的法律法规,清洗后的脱敏数据 数据治理和数据存储 统一汇总分析,保证数据一致性, 完整性 企业数据 设备和软件应用 外部数据 ▪3 企业内数据分析能力: 数据仓库, MES 数据集市的建设,提供智能报表工 Desktop Detachable Lenovo Smart 具、算法包、多维分析支持等 数据源 phone assistant LC eComm LC Comm. LC Service Moto DCG server 电脑管家 应用中心 LI eComm LI Comm. LI Serv. phone … 17

18. 全球化部署挑战:需要构建满足企业不同场景应用需求的混合云架构,并达到安全 可管理的业务目标 多数据中心工作负载的调度和迁移 公有云与私有云负载迁移 统一虚拟文件系统 Hadoo 结构化 设备镜 用户数 SPARK 云存储 北京数据 天津数据 公有云 工作负载 私有云 p 存储 像 据 工作负载 中心 中心 Native File Hadoop Native FUSE System Compatible Key-Value Compatible FS interface Interface FS interface 200% interface 180% 工 工 160% 作 作 140% 负 负 120% 分布式统一虚拟文件系统 载 载 100% 80% 60% 40% Gluster 20% AWS S3 Azure Ali OSS HDFS NFS FS 弗吉尼亚 芝加哥数据 0% 工作负载 数据中心 中心 公有云负载 私有云负载 多数据中心协同运作 § 在业务高峰期,自动把高峰期工作负载或流量, • 可以有效整合底层HDFS/S3/CEPH等异构文件系 • 易于整合多个数据中心资源,提高扩展性 转移到公有云,利用共有云更高的计算能力, 统,并对上层应用一共统一的文件接口; • 资源协同调度,消除数据中心孤岛 可以缓解对内部私有云的压力和需求。 • 可以整合异地的文件系统,支持跨数据中心文件系 • 统一管理,提高运维效率 § 有效的利用公有云API完成工作负载的迁移、 统的建立 • 全局资源优化配置,降低运营成本 智能DNS技术,完善应用程序架构,以适应新 • 支持分层读取,预读取,利用缓存技术大幅提高文 • 解决异地的灾备问题 型的混合云的模式 件系统的性能。 • 数据中心的优势互补 18

19. 平台2.0 架构,多个分立的小规模集群,每个承担不同的计算任务 天津数据中心 香港数据中心 天津汇总集群 芝加哥数据中心 法兰克福数据中心 MBG Qlik MPP & OLAP Real-time DCG Qlik 分析框架 Dashboard PCG Qlik Spark 数据分析、BI报表 Kylin Redis Redis Redis Redis 数据同步 HttpFS HttpFS HttpFS HttpFS HttpFS Sqoop Storm Hive Storm Hive Storm Hive Storm Hive Hive 数据计算 Kafka ETL Kafka Task scheduler Kafka ETL Kafka ETL ETL ETL LEAP SQL HDFS HDFS HDFS HDFS 分地域数据采集 实时数据流 Edge Edge Edge Edge Kafka Kafka Kafka Kafka Server Server Server Server 离线数据流 China Device A&P Device America Device E&M&A Device 19

20.引入ELK,构建全面的日志数据采集和实时分析的能力 Beats Elasticsearch 日志文件 系统进程 主节点(3) Logstash 定制化 UI 事件数据 自定义 {beat} 接收节点(X) Kafka Kibana 数据节点– Hot (X) 数据仓库 Web APIs Redis 实例 (X) 消息队列 节点 (X) 数据节点– Warm (X) 社交媒体 传感器 LDAP AD SSO Hadoop生态系统 ES-Hadoop 身份认证 监控通知 20

21.整合各种开源方案,实现全面的系统资源业务监控能力 § 采用多种开源和定制化的监控工具,从基础架构层到应用层进行端到端的监控,可以在5分钟内发现故障,并通过短信、 邮件等多种方式报警,并由7×24小时服务的运维团队在第一时间响应。 监控层 监控目标 监控参数 监控工具 监控点 报警手段 服务器 CPU, Disk, Memory, I/O Zabbix/Falcon 服务器/存储/数据库/应用等 SQL Performance , DB Usage , Running Cacti 带宽监控 基础架构层 数据库 邮件 parameters Smokeping 网络质量监控 网页 Bandwidth, Ping Delay , F5 , Firewall , 短信 网络 Switch statistics 电话 Capacity Watch 容量监控 标准服务 Http , SSH , Download Etc. 应用层 NetworkBench 全球网络性能监控 定制化 Login , Register, Pay Etc. Report & Fupan 21

22.通过开源Cube计算增强,弥补三方报表工具短板,实现业务报表快速构建能力 任务监控 集群监控 Kylin JDBC/ODBC Cube 资源隔离 设计 自定义BI工具 任务管理 任务触发 查询引擎 Project A Date Configuration Files Kylin 管理 自动检测项目计 … 算资源配置 Instance 1 Device Type Cube Project N Configuration Files Geo Instance 2 Date Data Segment 1 … Instance 3 Nginx Data Segment N 多维查询 项目A Device Type Rest API Instance 4 拉取数据 适配器 项目B Geo 项目C 数据仓库 22

23. 扩展Kerberos和Sentry,实现全面的数据安全保障能力 漏洞修复 分层保护 可信计算 2000 数 生命周期 数据 1800 1,716 访问认证 数据加密 数据脱敏 据 数据 接口 应用 应用 加密脱敏 1600 1400 用户管理 LEAP 子节点/服务 1200 大 Manaer MR 大数据 可信度量 权限管理 管理节点/服务 1000 897 数 平台 可信度量 839 HBase Kafka 可信 800 据 … 认证管理 引擎 平 Spark Imapla 600 498 监控告警 硬件 操作系统 台 BIOS 300 HDFS Hive 与 可信度量 400 审计日志 CPU/内存/存储 可信度量 176 147 系统 可信度量 200 64 59 96 可信 0 1 28 网络安全 驱动 0 OS Network 系 可信系统 TCM接口 … TCM 统 BIOS Kernel 芯片 密钥 算法 密码 随机数 安全芯片 生成 引擎 服务 引擎 漏洞发现及修复 安全框架 可信计算框架 危险程序、弱安全配置、系统缺陷及渗透等多全方 不是简单的权限管理与认证,而是在系统、平台、 第一个建立基于TCM/TPM安全芯片的大数据安全 面漏洞检测与安全增强 数据三层进行全方位安全保障,无安全短板。 解决方案,形成行业壁垒和标准化组织深入合作, 依照ISO27001标准的构建安全体系,建立了完备 推动建立国家的大数据可信计算标准及联盟 的安全扫描和加固能力 23

24.覆盖硬件、系统平台到大数据服务的一体化的安全管理方案 安全管理 安全技术 数据管理:数据生命周期管理,覆盖自数据产生、采集、传 平台监控 输、存储、加工,分享到销毁的全生命周期的管理 大数据服务平台 用户管理 Spark Sentry:集中式安全管理框架,用户授权和数据权限控制,支 持细粒度的数据访问控制,扩展多租户管理和资源隔离 授权管理 Map Reduce … LDAP授权:支持LDAP协议,支持集成企业内部已有的LDAP服务 隐私管理 HDFS 数据管理 Kerberos: 使用客户端/服务端架构和DES对称加密技术,实现 数据节点授权,通过服务端的强授权和组件保证平台的内部 日志审查 安全 系统平台 OS TCM技术:可信测量系统,统一身份认证,信息加密和解密保 网络安全 护技术,芯片级的可信支持框架 Kernel 系统安全 BIOS 防火墙技术:阻止网络攻击和侦测、防护网络漏洞 可信芯片 反病毒技术:扫描和侦测,杀除病毒 系统安全:系统访问策略,升级补丁策略,运维策略等 24

25.新的数据ETL工具,兼容各种企业信息系统,实现异构数据资产整合 数据集成平台: ü 全图形化化开发与管理界面; ü 丰富的ETL数据处理组件; ü 丰富的数据介入适配器,可对接各类商业产品, 如SAP、Oracle等管理软件,及各类数据库; ü 丰富的接口支持,支持JDBC/ODBC、http、ftp、 消息队列等多种数据传输方式; ü 支持Oracle、SqlServer、DB2等商用数据库,也 支持MySQL、MongoDB、PostgreSQL等开源数 据库,支持结构化和非结构化数据获取;支持 XML、TXT等文本格式数据的处理与解析; ü 支持Hive,Spark,Impala,Habse等Hadoop 生态技术及组件; ü 强大的开发环境,支持运行、调试、日志跟踪、 结果预览,支持工程的导入、导出等; 25

26.元数据管理工具,实现数据资产的字典化管理,支持数据接口发布/分享 元数据平台 ü 元数据管理:提供LEAP平台内 全部元数据信息的集中、可视 化管理,实现对元数据信息的 快速定位、查询与检索; ü 数据质量管理:构建数据标准、 数据质量校验规则及质量分析 报告; ü 数据生命周期管理:实现对数 据的分级定位,从采集到销毁 的全生命周期跟踪及管理; ü 血缘分析与影响分析 26

27. 实现了5s内,对全球设备和用户进行实时追踪和系统重算的能力,构建了联想统一 的全球数据湖 • 数据处理能力 俄罗斯.莫斯科 – 数据存储能力突破1552亿条记 录, 每日新增30TB数据 德国.埃森 – 追踪联想设备突破2亿,每月以 1000万的数量增加 – 总追踪全球用户数突破6亿, 其中 全球注册用户突破1.6亿,每月 新增接近400万 中国.北京 美国.芝加哥 德国.法兰克福 中国.大连 美国.旧金山 • 硬件规模 中国.天津 – 物理服务器突破2000台,虚拟 中国.香港 机实例突破7000个 新加坡 – 10个数据中心在全球5个不同区 域 : 中国, 北美,亚太、欧洲、 俄罗斯,覆盖全球160多个国家 和地区 • 数据隐私保护 – 所有数据本地保存,遵循当地政 府隐私保护法规,数据加密并脱 敏存储 27

28.平台2.0架构的主要问题 • 工厂里面的数据也需要整合,如何处理来自生产设备和工控系统的实 时时序数据,并改进生产工艺 • 如何支持广泛的OLAP场景和爆炸式的自助分析需求,使得企业的IT资 产得以复用 • 如何提供业务弹性,为突发任务调动足量的计算资源 28

29.平台3.0(2016~2018 ) 大数据平台突破,支持广泛的智能化场景 29