理解3:从静态存储数据,向动态流处理数据的扩展. 大数据“4V”特征. 对大数据特征的 ... 分布式文件系统. 层次2: 信息检索汇聚 ..... OLTP/在线事务处理应用. (~秒级别).

注脚

展开查看详情

1.大数据发展趋势分析及 中兴 GoldenData 解决方案 中兴通讯 . 云计算 &IT 经营部 2014 年 2 月

2.目 录 大数据时代的机遇和挑战 大数据关键技术发展趋势 中兴通讯大数据解决方案介绍 案例介绍

3.大数据是端 - 管 - 云发展的产物 201 1 -201 6 全球移动数据量(单位: EB/ 月) Source: Cisco Global IP Traffic Forecast Update 2012 201 1 -201 6 全球 IP 数据量(单位: EB/ 月) 2011 2012 2013 2014 2015 2016 29% CAGR 2011-2016 流量激增 : 2011-2016 年,全球移动数据流量将激增 18 倍,达到 10.8EB/ 月;全球 IP 宽带数据流量将达到 110.28EB/ 月 ( 1 EB = 1,024 PB = 1,048,576 TB ) 数据膨胀 :未来 10 年全球数据量将以 40+% 的速度增长, 2020 年全球数据量将达到 35ZB (千万亿兆比特 1 ZB = 1,024 EB ) 注: 到 2012 年为止,人类生产的所有印刷材料的数据量是 200PB ,全人类历史上说过的所有话的数据量大约是 5EB 。 3

4.大数据的 4V 特征 大数据概念的提出,通过三个方面的扩展延伸带来了 思维的变革 ,并对生活、工作产生深远影响 数据是源头和动力,数据源的变化带来数据应用的变化 数据量大 Volume 海量 结构化、非结构化、半结构化数据 Variety 多样性 数据实时、快速处理 Velocity 快速 能挖掘出高价值 Value 价值 理解 1 :从局部或样本数据,向全体数据的扩展 理解 2 :从结果数据,向过程数据的扩展 理解 3 :从静态存储数据,向动态流处理数据的扩展 大数据“ 4V ”特征 对大数据特征的理解 4

5.电信行业大数据应用需求和特点 移动设备 网络信令 Web 日志 计费系统 基站 预测分析 机器学习 数据挖掘 可视化 数据服务 统计 报表 查询 分布式数据库 ETL 数据集成 数据融合 层次 1: 数据收集与存储 分布式文件系统 层次 2: 信息检索汇聚 层次 3: 知识发现 层次 4 智慧 数据到信息 数据形成 信息到知识 知识到智慧 云存储 大数据中心 … 位置 BDS 多维信令分析 网管综合分析 网规网优 … 离网客户挽留 ROI 预测分析 … 电信数据源 精准营销 流量经营 个性化推荐 … 更加智能 数据挖 掘 深度增加

6.大数据时代,数据已经成为运营商的核心战略资产 电信运营商 真实 记录了人的社会化生活信息 运营商同时拥有用户的真实社会信息和流经管道的互联网虚拟社会信息,这是电信运营商同互联网厂商相比的优势所在。 上海某运营商 每分钟 8 万条位置更新信息(徐家汇商圈) 每小时近 300 万次移动电话呼叫 每天 70-100TB 数据及 30 亿次点击的互联网访问量 6 网络体验数据 信令数据 行为 / 业务使用数据 语音 短信 互联网 业务数据 业务订购 手机终端 电信网络用户 位置数据 账户数据 客服数据

7.大数据时代电信行业面临的主要挑战 异构海量数据,存储成本高 数据模型不一,共享困难 数据质量不一,干扰数据多 如何有效管理 数据资产? 如何有效挖掘 数据价值? 如何做好 数据经营? 数据处理实时性要求高 数据挖掘智能性不足 数据可视化手段匮乏 缺乏完善的数据开放访问机制 内部不能清晰确定各类数据价值 外部难以将需求转化为分析需求 电信行业海量数据还未形成有效的信息资产 7

8.目 录 大数据时代的机遇和挑战 大数据关键技术发展趋势 大数据关键技术发展趋势 数据分析与应用技术发展趋势 中兴通讯大数据解决方案介绍 案例介绍

9.大数据关键技术发展趋势 大数据基础设施 趋势 1 :计算单元向不同的专业化应用发展 趋势 2 :存储设备向低功耗、高性能和一体化方向发展 趋势 3 :大数据分析推动计算和存储能力趋向融合 存储及数据管理 趋势 1 :实现高效存储成为存储技术主要研究方向 趋势 2 :云存储系统从向多应用服务方向发展 趋势 3 :关系数据库和分布式数据管理方式逐步走向融合 数据隐私与安全 趋势:数据给数据安全和隐私保护带来更加严峻挑战

10.趋势 1 :计算模块向不同的专业化应用发展 专业加速计算模块 视频编解码 图像识别 图像搜索 在线加解密 轻量级 计算模块 网站前端接入 Cache 服务 一般计算模块 虚拟机租赁 数据库租赁 中间件租赁 ERP/CRM 租赁 重载计算模块 银行交易业务 电信综合计费业务 基础设施 存储与管理 隐私安全

11.趋势 2 :存储设备向低功耗、高性能方向发展 面向海量存储的低功耗存储服务器 面向海量访问的高性能存储服务器 ARM 存储服务器 SSD 存储服务器 低功耗、高性能成为存储设备形态发展方向

12.趋势 3 :计算、存储、网络能力趋向融合 将计算在离它操作的数据最近的地方执行,降低网络阻塞的影响,提高系统数据的吞吐量,任务执行更加高效 移动计算比移动数据更划算 ! 移动数据 移动计算 带宽消耗 1. 计算分配 数据存储节点 3. 循环计算 计算控制节点 计算节点 传统分布式系统 大 数据一体机 计算节点 … 数据存储节点 … 2. 移动数据到计算

13.趋势 1 :实现高效存储成为存储技术主要研究方向 13 自动精简配置:解决传统存储分配问题,达到按需分配,提高存储的使用率 自动分层存储技术:对存储资源进行分层,保证热点数据在性能最好的设备上存取 重复数据删除技术:减少数据重复存储,提高系统使用率 数据压缩:对存储数据进行压缩,提高存储资源利用率 自动精简配置 重复数据删除 自动分层存储 数据压缩 自动精简配置可以按应用需要自动扩展逻辑卷 大小; 客户 可以根据业务发展,动态 采购 物理 设备,优化存储投入 存储 优化 自动分层存储可以根据数据活动状况将数据转移到不同的存储介质 热点数据存储在高速的 SSD 设备中,提高存储效率和存储投入 重复数据删除技术着眼于删除重复出现的数据块 重复数据删除更适合于备份应用或者 NAS 应用的场景 数据压缩技术通过对数据重新编码来降低其冗余度 数据压缩更适用于一些结构化的数据应用 利用存储优化技术减少数据存储空间、提升吞吐 I/O 基础设施 存储与管理 隐私安全

14.趋势 2 :云存储系统朝多应用服务方向发展 通过专业化的管理策略满足不同应用的需求 通过清晰的应用边界保证服务质量 通过弹性扩展,实现资源利用的最优化 新型存储体系架构 传统存储 海量存储 应用 A 应用 B 应用 C 存储资源池管理 一体化统一管理 独立 存储 独立 存储 独立 存储 应用 A 应用 B 应用 C 独立 运维 独立 运维 独立 运维 应用 A 应用 B 应用 C 存储资源管理 (完全通用的管理策略) 一体化统一管理 专业化管理策略 1 专业化管理策略 2 专业化管理策略 3 数据融合存储,通过折中方式实现性能优化,不能实现所有应用的性能最优化 无应用边界的存储资源共享,导致服务质量无法保证 扩展能力有限,不能为应用提供足够的资源

15.趋势 3 : RDBMS 和分布式数据管理方式融合 各司其职,组合方案 取长补短,相互融合 RDBMS 劣势: 多类型数据表示 扩展性 简单分析 关系模型 事务处理 查询优化 优势: 简单模型 非过程 SQL 语言 丰富工具 劣势: 关系模型支持 SQL 的支持 分析和调试工具 优势: 高扩展性 高可靠 部署成本低 处理方式灵活 生产系统 RDBMS 分析系统 ETL( Sqoop ) 大数据清洗 OLAP Aster Data GreenPlum RDBMS RCFile HadoopDB

16.趋势:数据安全和隐私保护成为更严峻挑战 16 数据 用户 法律 法规 技术 个体数据、匿名数据、群体数据具有不同的隐私保护级别 对外服务的隐私风险远远高于内部服务,需要有效手段规避 让用户有选择的自由,同意或不同意提供数据 不同用户对隐私敏感度不同,可以区别对待 数据匿名技术实现敏感信息的匿名化,保护隐私 NoSQL 、 Hadoop 需要加强数据安全保护 安全框架和审计有利于保护数据不被泄露 关注法律法规的逐步完善,根据变化调整策略 关注西欧、北美等隐私保护严格区域的进展,借鉴经验 基础设施 存储与管理 隐私安全

17.趋势:数据安全和隐私保护成为更严峻挑战 16 数据 用户 法律 法规 技术 个体数据、匿名数据、群体数据具有不同的隐私保护级别 对外服务的隐私风险远远高于内部服务,需要有效手段规避 让用户有选择的自由,同意或不同意提供数据 不同用户对隐私敏感度不同,可以区别对待 数据匿名技术实现敏感信息的匿名化,保护隐私 NoSQL 、 Hadoop 需要加强数据安全保护 安全框架和审计有利于保护数据不被泄露 关注法律法规的逐步完善,根据变化调整策略 关注西欧、北美等隐私保护严格区域的进展,借鉴经验 基础设施 存储与管理 隐私安全

18.数据分析与应用技术发展趋势 分布式计算框架 趋势 1 :实时数据分析需求推动实时计算框架发展 趋势 2 :大数据分析平台提出多分布式计算框架融合需求 数据分析技术 业务应用技术 趋势 1 :对自然语言理解的需求推动语义 WEB 技术发展 趋势 2 :跨媒体的数据融合业务推动多维多模态信息融合与处理 趋势 3 :大数据可视化成为快速理解大数据的最佳途径 趋势 1 :个性化、社交化、智能化的业务趋势 趋势 2 :人机交互的需求推动智能问答发展和应用

19.趋势 1: 业务对数据分析实时性要求提升 批处理:先存储,再计算 捞! 流计算:数据流实时计算 拦! 数据的价值随着时间的流逝而降低 实时流计算平台:广告点击、 TopK CEP :用户行为分析、市场预测 金融交易、风控对海量交易实时性 用户体验的个性化和实时性 社交网站用户数据的实时统计和分析 点击付费广告位 与计费有关的反作弊业务的实时处理 实时搜索、个人实时信息服务等等 计算框架 数据分析 业务应用

20.趋势 2: 分布式框架同计算资源解耦 准实时批处理应用 ( ~ 分钟级别) 应用特征: 应用批量处理输入数据,输出 结果不需立即呈现给用户 ; 典型应用: 内容计费、网间结算、话 单文件计费等 OLTP/ 在线事务处理应用 ( ~ 秒级别) 应用特征: 应用逐个处理用户请求,输出 结果需立即呈现给用户 ; 典型应用: 各种门户、 CRM 、实时事件告 警、积分平台、搜索引擎等 非实时批处理应用 ( ~ 小时级别) 应用特征: 应用批量处理大量输入数据,输出结果不需立即呈现给用户 ; 典型应用: ETL 数据处理、 KPI 计算、日志清 洗、用户行为分析等 OLAP/ 在线分析应用 ( ~ 秒级别) 应用特征: 应用逐个处理用户请求,输出结果需立即呈现给用户 ; 典型应用: 一级经分主题分析、数据钻取 、 市场预测、多维数据报表等 不同应用场景需要使用不同的云计算框架 计算资源 计算资源 调度管理 BSP 框架 DAG 框架 业务引擎 M/R 框架 MPI 框架 平台为不同场景提供不同的分布式框架 YARN/MESOS/ 等开源项目推动了分布式框架同计算资源的解耦

21.趋势 1 :利用语义技术解决自然语言理解 云计算和云存储基础架构 大规模语义 知识网络 异构媒体语义 计算与链接 语义查询与知识服务应用 语义网络动态更新与知识融合 异构知识资源的语义网络构建 软硬件计算基础 知识服务 知识资源抽取与语义网络构建技术 自然语言处理 图数据管理 图结构的大规模语义数据管理平台 语义网络数据 质量控制 网络 知识源 工具书年鉴 科技文献 新闻 电影 电视音乐 图书 结构化数据 文、图音视频 计算框架 数据分析 业务应用

22.趋势 2 :大数据推动多维多模态信息融合与处理 文本信息处理 多维度和多模态数据与信息的处理 语音视频信息处理 用户数据的关联、分析和建模 图像信息处理 地图位置信息处理 数据挖掘和机器学习处理平台

23.趋势 3 :大数据可视化成为快速理解大数据的最佳方式 折线图 饼图 GIS 应用 条形图 分析报告 地图

24.趋势 1 :业务发展趋势更加个性化、社交化、智能化 人 基于多维度用户建模和知识 挖掘共同 满足个性化需求 基于多维度用户 建模在不同场景满足用户个性化需求 在不同场景下提供基于知识体系的信息扩展 综合满足 用户需求 内容 场景 SNS 数据 短信数据 微博数据 浏览日志 LBS 数据 User Profile 计算框架 数据分析 业务应用

25.趋势 2 :智能问答交互将成为下一代人机接口 谁控制了入口,谁就控制了互联网

26.目 录 大数据时代的机遇和挑战 大数据关键技术发展趋势 中兴通讯大数据平台介绍 系统架构及特点 对 Hadoop 的优化改进 中移大数据测试情况 案例介绍

27.G91, B170 G137, B207 G174, B239 G171, B189 标题 : 字体 : 微软雅黑 字号 : 30-32pt 颜色 : 主题蓝色 正文 (1-5 级 ): 字体 : 微软雅黑 字号 : 28-12pt 颜色 : 黑色 GoldenData 大数据分布式处理平台架构 大 数 据 挖 掘 DMP 精分 实 时 流 处 理 数据源 ZDH 应用 数据源 结构化数据 管理 部分 元数据管理 系统管理 安全管理 流数据 非结构化数据 半结构化数据 静态数据 ETL 分布 式中 间件 HDFS/ZXDFS HBase Oozie MapReduce 用户行为分析组件 OLAP 客流分析组件 挖掘工具 流量统计工具 位置业务 垃圾短 信分析 客服中心 无线网络优化 日志留存与分析系统 精准营销 用户画像推荐 QSP 搜索 企业搜索 金融业务 HIVE 统一开放服务接口 UDAS 查询 IPTV 应用商店 舆情分析 CEP 引擎 输入适配器 输出适配器 大数据平台 DHSS YARN

28.完善的大数据处理平台及工具 HDFS ZX-DFS HBase ZX-MR Mahout ZX-R Hive Flume Sqoop ZooKeeper ZX-Hadoop Manager Hadoop 基础上的 ZTE 优化版本 丰富的应用开发、维护工具 一体化数据管控平台 分布式 OLAP-ZXDAP 分布式挖掘算法库 -ZXDMP 分布式搜索引擎 -ZXQSP 丰富多样的数据展现 -ZXUMAP 并行数据分析与挖掘工具 SQL 、 WebService 标准接口 数据导入导出工具 集群的批量安装、维护 MR 作业的图形化开发工具

29.提供灵活的端到端数据处理方案 数据库和数据仓库 静态数据分析 分析结果 关系型 数据源 非关系型数据源 分析结果 数据分析建模 结构化 数据 流式数据 非结构 化数据 关系或非关系数据源 实时结果 CEP 实时数据分析