一个分布式系统不可能满足一致性、可用性和分区容错性这三个需求,最多只能同时满足两个. ——Eric ... 大规模在线实时应用(单行事务处理能满足的场景). (HBase).

注脚

1.大数 据与绿色数据中心 吴闻新 全球 医疗中国区资深架构 师

2.未来 45 分钟 4 组关键词 2 大数 据特点( 4 个 V ) CAP 理论 业界三 类 数据库 数据中心 ---PUE

3.大数 据在中国 大数据 – 新一轮“ 信息 革命” Data Growth Statements – Mckinsey Global Institute 200PB/ 季度 智慧城市数据 中国某一线城市 2090 亿 2021 年 RFID 标签销售量 2011 年是 1200 万 1.8ZB in 2011 2 天的数据量 > 文明起始到 2003 年 3.88 亿 /5.3 亿 移动 / 互联网用户 中 国 2012 年 6 月 $ 8000 亿 10 年个人位置信息服务创造的价值 5PB/ 年 健康档案数 据 中国某一线城市 “ 数据日益成为商业的新源材料 : 一 种与 资本和劳动 力并列的 新经 济元素 .” — The Economist, 2010 “ 信息将成为 21 世 纪的石油 ”. — Gartner, 2010 3

4.速度 Velocity 数据量 Volume 多样化 Variety 传统数据 大数据 GB -> TB TB -> PB 以上 数据量稳定,增长不快 持续实时产生数据 , 年 增长率超过 60 % 主要为结构化数据 半结构化,非结构化 , 多 维数据 大数据技术将被设计用于在成本可承受( economically )的条件下,通过非常快速( velocity )的采集、发现和分析, 从大数据量( volumes )、多类别( variety )的数据中提取价值( value ),但是传统关系型数据库存在性能、存储、成本、 IO 瓶颈、等等的原因,无法支撑这 4 个 V+1 个 E 的要求,解决方法就是分布式技术、廉价的 X86 平台、本地存储,点出分布式技术是大数据处理的核心 大数据在中国 大数 据 – 四大 区别 于传统数据的特征 统计和报表 价值 Value 数据挖掘和预测性分析 4

5.CAP 原理 A Availability CAP 理论 一个分布式系统不可能满足一致性、可用性和分区容错性这三个需求,最多只能同时满足两个 —— Eric Brewer C Consistency P Partition Tolerance Consistency 一致性 所有的用户都可以看到一致的系统状态 Availability 可用性 无论何时 , 哪怕出现硬件故障 , 数据中心故障 , 系统也可提供服务 , 哪怕是降级的服务 Partition Tolerance 分区容忍性 哪怕在网络出现分割的情况下 , 各个独立的子系统都可以继续提供服务

6.6 RDBMS与Hadoop 架构 对比 RDBMS RDBMS Connection (e.g., FC, InfiniBand) Storage (e.g., SAN, NAS, Storage Cell, etc) • 多个独立的关系数据库服务器,访问共享的存储资源池 •优势: • 采用多个关系数据库服务器,多个存储,与原有的架构相比,扩展了存储容量和计算能力 ; •劣势: • 计算与存储分离,数据访问存在竞争和带宽瓶颈 ; •支持的关系数据库服务器数量有限; •只能向上扩展(scale-up), 不能横向扩展(not scale out) •适合复杂的需要事务处理的应用 NewSQL 与 NoSQL Network (e.g., GbE, 10GbE, Infiniband) E.g., MPP Databases (or MapReduce on RDBMS), Big Data framework (e.g., Hadoop, HBase) •由大量独立的服务器通过网络互连形成集群,每个服 务器带存储。 •优势:计算与存储融合,支持横向扩展,更好的扩展 性 •劣势:解决数据冲突时需要节点间协作 •适用范围: •数据仓库和离线数据分析 (MPP, Hadoop/HBase) •大规模在线实时应用(单行事务处理能满足的场景) (HBase)

7.RDBMS :事物类处理 行存储 关系型 小型机为 主 NoSQL 海量全局数据处理 Key-Value MapReduce X86 平台 NewSQL : 分析类处理 列 存储 关系型 X86 平台 大数据激发技术创新 7 NewSQL : 严格保证一致性、遵循关系模型,完整支持 SQL92 标准 ,一 定程度上牺牲可用性和分区容错性。 特点:列存 、 主 要使用场景:主要用于结构化数据的统计分析 Nosql 数据库:侧重分区容错性,一定程度上牺牲一致性和可用性 ,突 破了关系模型,不一定支持 SQL 。 特点 :主 要使用场景:非结构化数据的统计分析、实时查询 共性:采用廉价的 X86 平台、本地硬盘、分布式架构

8.大数据推动产品创新 8 大数据推动了数据库行业的产品创 新。 OldSQL 阵营在基本架构不变的基础上引入内存计算和一体机技术以提升处理性能。 NewSQL 阵营在过去五年里形成了近十个商用的产品,去年 Google 发表论文介绍了 F1/Spanner 关系型数据库(未开源 )。 NoSQL 阵营的技术源于互联网公司 Google , Yahoo , Amazon, Facebook 等 。 现 在又出现了 noSQL 阵营和 newSQL 阵营融合的趋势,例如 hadoop 通过 hive 的扩展实现了对结构化数据的支持, greenplum 等产品也通过对和 hadoop 的融合实现了对非结构化数据的支持。 RDBMS : Oracle Exadata DB2-DPF SQLServer NewSQL : Greenplum Vertica GBase 8a F1/ Spaner NoSQL : Hadoop Hbase Bigtable Cassandra

9.9 什么应用适合NoSQL 数据库 方案 支持 PB 级别数据 Big Data 支持非结构化数据 支持结构化数据 支持万级每秒查询 支持高可靠性系统 支持高效率统计分析 大量的结构化和非结构化数据、要求可变的数据结构和高效的数据导入、查询、统计等

10.大数据在中国 英特尔 Hadoop 发行 版 10 Hive 0.9.0 交 互式数 据仓库 Sqoop 1.4.1 关系型数据库 同步工具 Flume 1.1.0 日志收集工具 Intel Hadoop Manager 2.2 安装、部署、配置、监控、告警和访问控制 Zoo keeper 3.4.5 分布式 协作服务 Pig 0.9.2 数据流处 理语言 Mahout 0.6 机 器学习 英特尔 Hadoop 发行版组件 稳定的企业级 hadoop 发行版 利用硬件新技术进行优化 HBase 改进和创新,为 Hadoop 提供实时数据处理能力 针对行业的功能增强,应对不同行业的大数据挑战 分 布式、高维数据库 Hbase HBase 0.94 的改进和创新,提供即时数据处理 Map/Reduce 1.0.3 稳定高效的分布式计算框架 HDFS 1.0.3 可靠的分布式文件系统 R - statistics 数 据统计

11.Intelligent Systems Architecture 智慧城市 电信 零售 终端设备 HH NB/ULT Cameras PoS Kiosk DS 大数据在中国 各行业大数据最佳实践 制造 医疗 物联网 金融服务 数 据中心 CPU SSD 10GbE Infiniband … … 11

12.Top Five Nominees for the 2012 US Government Big Data Solutions Award Veterans Health Administration ( 退伍军人健康管理 ) : New Big Data approaches and frameworks provide data and tools for 20,000 clinicians to track medical trends, better anticipate outcomes. The scope of the data set is over 80 billion data files. Focused on service to 25 million veterans. Judges selected Veterans Health Administration because of the impact and best practices in Big Data solutions . NASA (星图位置模拟计算) : Multiple and extensive activities. One of many exemplars was the NASA  Center for Climate Simulation (NCCS) . Their work includes scalable Hadoop clusters for large scale climate simulations . Bureau of Engraving and Printing (文档电子化) : This government agency is the largest producer of security documents in country. They have fielded an Big Data solution enhanced quality and mission support, reduced waste. Judges characterized this as a good match of right business processes to and a modern technical approach . AMSAA (军用物资活动分析) : Army Material Systems Analysis Activity. Vehicle data analysis program instruments vehicles in theater to collect operational and environmental parameter historical data. Massive data pattern screening and analysis toolsets put in place. Result: rapid identification of issues before mission impact . National Cancer Institute (全国癌症机构) : Extensive research and working prototypes of cutting edge systems based on Hadoop and the Big Data. Judges noted the significant potential impact of this solution as well as the strength of the technical approach.

13.移动用户上网记录集中查询与分析支撑系统

14.智能交通的软件架构 14 HBase MapReduce Hive 即 时查询 ( 例如:路况信息 ) 应用程序 视频流处理 ( 例如:实时路况 ) 数 据挖掘 ( 例如:车辆跟踪 )

15.面临挑战 数据源 结构化、半结构化(病历),非结构化( PACS 影像 ) 数据格式 标准难制定 , 或不断变化 数据量 中型城市( 1000 万人口)存放 50 年会达到 10PB 医 疗信息区域内准实时共享,医生可快速调阅病人信 息 信 息共享提升效率 基 于病史的自动医疗、饮食等建议;针对病史和病症的 OTC 药物参 考等 个性化医疗 疾病自动分类和诊 断 计算机辅助诊断 趋 势分析:例如,流行病扩展情况分析、癌症的历年趋势、药物效果 分 析 决策辅助系统 区域医疗健康档案系统 解决问题 居民电子病历存储、查询 解决方案 HBase 分布式数据库 存放健康档案和 PACS 影像数据 特点优势 高速数据导入;实时数据查询; 关键字搜索; 分布式统计 智慧医疗与大数据

16.24 数据中心基础设施建设绿色技术概述

17.数据中心绿色指标:数据中心能源效率系数 PUE PUE = [ 数据中心总用电消耗 ] / [IT 设备能源消耗 ]  理想的企业数据中心 PUE : 1.35 以下  理想的互联网数据中心 PUE : 1.25 以下  常 见 的 PUE : 1.8 to 2.0 甚至更高 Chiller 33% Humidifier 3% CRAC 9% IT Equipment 30% PDU 5% UPS 18% Lighting 1% Main switchgear / Generator 1% 25 Waste Heat OUT INDOOR DATA CENTER HEAT Electrical Power IN

18.验收 建设策划 运维 10 - 20 年运作寿命 正在施工项目情况 场地评估 数据中心的策略 业务战略和任务 建设策划 : 数据中心建设的工作范围, 制定项目里程碑 设计 : 土建和工程设计 30%-60%-90% 设计审核, 项目有关的各种招标 施工 : 根据设计规格进行施工 验收 : 制定未来运维的模式, 负责基础设施的验收 运维 : 保证和维持基础设施的运作 29 采用 Intel 数据中心标准 设计 施工 30/60/90 方案设计/系统设计/施工图设计 数据中心 退役处理 大型数据中心基础设施建设全生命周期方法论 隐含的挑战:在设计阶段能否预见到运维阶段 IT 系统架构的发展、变化! Issue for Construction 需求预测

19.针对数据中心建设标准定义了四个级别: 19 T1 数据中心:基本型 T1 数据中心可以接受数据业务的计划性和非计划性中断。要求提供计算机配电和冷却系统,但不一定要求高架地板、 UPS 、或者发电机组。如果没有 UPS 或发电机系统,那么这将是一个单回路系统并将产生多处单点故障。在年度检修和维护时,这类系统将完全宕机,遇紧急状态时宕机的频率会更高,同时操作故障或设备自身故障也会导致系统中断。 T2 数据中心:组件冗余 T2 数据中心的设备具有组件冗余功能,以减少计划性和非计划性的系统中断。这类数据中心要求提供高架地板, UPS 和发电机组,同时设备容量设计应满足 N+1 备用要求,单路由配送。当重要的电力设备或其他组件需要维护时,可以通过设备切换来实现系统不中断或短时中断。 T3 数据中心:在线维护(全冗余系统) T3 级别的数据中心允许支撑系统设备任何计划性的动作而不会导致机房设备的任何服务中断。计划性的动作包括规划好的定期的维护、保养、元器件更换、设备扩容或减容、系统或设备测试等等。大型数据中心会安装冷冻水系统,要求双路或环路供水。当其他路由执行维护或测试动作时,必须保证工作路由具有足够的容量和能力支撑系统的正常运行。非计划性动作诸如操作错误,设备自身故障等导致数据中心中断是可以接受的。当业主有商业需求或有充足的预算追加, T3 机房应可以方便升级为 T4 机房。 T4 数据中心:容错系统 T4 级别的数据中心要求支撑系统有足够的容量和能力规避任何计划性动作导致的重要负荷停机风险。同时容错功能要求支撑系统有能力避免至少 1 次非计划性的故障或事件导致的重要负荷停机风险,这要求至少两个实时有效地配送路由, N+N 是典型的系统架构。对于电气系统,两个独立的( N+1 ) UPS 是一定要设置的。但根据消防电气规范的规定,火灾时允许消防电力系统强切。 T4 机房要求所有的机房设备双路容错供电。同时应注意 T4 机房支撑设备必须与机房 IT 设备的特性相匹配。

20.31 18.3C 26.7C 数据中心基础设施建设绿色技术2:运行温度的提高 美国采暖、制冷和空调工程师协会(ASHRAE)TC9.9于2008年对机房环境要求提出的建议 机房环境改变 最高温度: 27C ,可放宽至 32C 最低温度: 18C ,可放宽至 15C 最高湿度: 60% ( 15C 露点) 最低湿度: 25% ( 5.5C 露点)

21.32 数据中心基础设施建设绿色技术3:科学的气流组织

22.34 数据中心基础设施建设绿色技术4:机柜布置

23.35 • • • • • • 水侧节能装置 (Water Side Economizers) 双盘管乙二醇自然冷却系统 全新风自然冷却系统( Air Side) 风冷冷水机配干式冷却器自然冷却系统 鸡舍式热压自然循环风冷却系统 转轮式热交换自然冷却系统 数据中心基础设施建设绿色技术5:自然冷却 自然冷却的成熟形式

24.37 480V AC 服务器 PS 服务器机柜 12, 5 & 3.3V PDU Voltage Regulator DC/DC 400V DC 整流 AC/DC 400V DC 服务器机柜 208V AC 服务器 PS 380- 410V DC/DC DC UPS AC/DC PDU 12, 5 & 3.3V Voltage Regulator AC/DC 傍路 DC/AC 480V AC 电池柜 Chrg 电池柜 DC/DC 变压器 变压器 隔离 变压器 数据中心基础设施建设绿色技术6:直流技术

25.39 数据中心基础设施建设绿色技术7:清洁能源 2012 年 4 月绿色和平组织( greenpeace )发布一份名为《 How Clean is Your Cloud? 》的报告,对于各 个著名 IT 企业的数据中心做了绿色能源评估。

26.谢谢!

user picture
  • 励志师---★
  • Apparently, this user prefers to keep an air of mystery about them.

相关文档

  • 大规模实践基于Docker的MySQL私有云平台。集成高可用、快速部署、自动化备份、性能监控、故障分析、过载保护、扩容缩容等多项自动化运维功能。数据库高可用是不容忽视的,在Docker容器分配时如何保障主从不在同一宿主机上呢?我们通过自研Docker容器调度平台,自定义Docker容器的分配算法。实现了MySQL的高密度、隔离化、高可用化部署。同时结合我们自研的数据库中间件,支持了分片集群及无感知的高可用切换功能。截止目前平台支撑了目前总量90%以上的MySQL服务(实际数量超过2000个),资源利用率提升30倍,数据库交付能力提升70倍。并且经受住了十一黄金周、春节票务业务高峰期的考验。未来将致力于数据库自动化向智能化的推进。

  • 在云时代的今天,企业数据库面临着复杂的选择,数据库异构迁移往往达不到预期效果,樊文凯想大家分享了ADAM数据库和应⽤用迁移(Advanced Database & ApplicationMigration, 以下简称ADAM),ADAM是阿里云结合阿里巴巴多年年内部业务系统数据库和应⽤用异构迁移的经验(去IOE),⾃自主研发的、迁移ORACLE数据库和应⽤用⾄至阿⾥里里云相关云产品的专业产品,分享了ADAMA的结构、高性能、数据库割接、智能分析、所用的生态工具等,典型的数据库中出现的痛点。

  • 主要介绍阿里云MongoDB服务使用上的一些最佳实践,以及对MongoDB的部署、参数调优

  • Lindorm 是新一代面向在线海量数据处理的分布式数据库,阿里的技术专家通过分享这些多种场景下的数据存储技术实践,帮助企业更好地理解各种数据存储技术的特点,针对自己的业务发展对数据存储技术进行选择和组合。