Google云计算关键技术MapReduce BigTable GFS Chubby 微软的 ...

下载 0

Horin

发布于

2090

人观看

#信息技术

并行分类算法包括：EmptyClassifier4M、C45决策树、CBC分类、CBR分类、K近邻、朴素贝叶斯、层次C45决策树、线性回归分类、神经网络算法。 BC-PDM挖掘算法.

展开查看详情

1 .内容提纲云计算概念与现状 Google 文件系统 Google MapReduce Google Bigtable 大云数据挖掘系统

2 .云计算概念与现状

3 .云计算的起源

4 .云计算发展的驱动因素

5 .云计算的定义云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。

6 .云计算技术体系结构

7 .

8 .Google 云计算关键技术 MapReduce BigTable Chubby GFS ◦Google 文件系统 GFS(Google File System) ◦并行数据处理 MapReduce ◦结构化数据表 BigTable ◦分布式锁管理 Chubby

9 .

10 .

11 .微软的节能措施

12 .Google 云计算原理分布式文件系统 GFS Google File System 12

13 .Google 设计 GFS 的动机  Google 需要一个支持海量存储的文件系统 ◦购置昂贵的分布式文件系统与硬件？是否可以在一堆廉价且不可靠的硬件上构建可靠的分布式文件系统？ 13

14 .Google 设计 GFS 的动机  为什么不使用当时现存的文件系统？ ◦Google 所面临的问题与众不同  不同的工作负载，不同的设计优先级（廉价、不可靠的硬件） ◦需要设计与 Google 应用和负载相符的文件系统 14

15 .GFS 的假设与目标  硬件出错是正常而非异常 ◦系统应当由大量廉价、易损的硬件组成 ◦必须保持文件系统整体的可靠性  主要负载是流数据读写 ◦主要用于程序处理批量数据，而非与用户的交互或随机读写 ◦数据写主要是“追加写”，“插入写”非常少  需要存储大尺寸的文件 ◦存储的文件尺寸可能是 GB 或 TB 量级，而且应当能支持存储成千上万的大尺寸文件 15

16 .GFS 的设计思路  将文件划分为若干块（ Chunk ）存储 ◦每个块固定大小（ 64M ）  通过冗余来提高可靠性 ◦每个数据块至少在 3 个数据块服务器上冗余 ◦数据块损坏概率？  通过单个 master 来协调数据访问、元数据存储 ◦结构简单，容易保持元数据一致性  无缓存 ◦Why? 16

17 .GFS 的架构  单一 Master, 若干 ChunkServer GFS 的架构有什么问题吗？ 17

18 .18

19 .单一 Master 问题  分布式系统设计告诉我们： ◦这是单点故障 ◦这是性能瓶颈  GFS 的解决办法 ◦单点故障问题采用多个（如 3 个）影子 Master 节点进行热备，一旦主节点损坏，立刻选举一个新的主节点服务 19

20 .单一 Master 问题  GFS 的解决办法 ◦性能瓶颈问题尽可能减少数据存取中 Master 的参与程度不使用 Master 读取数据，仅用于保存元数据 Simple, and good enough! 客户端缓存元数据采用大尺寸的数据块（ 64M ）数据修改顺序交由 Primary Chunk Server 完成 20

21 .Master 节点的任务  存储元数据  文件系统目录管理与加锁  与 ChunkServer 进行周期性通信 ◦发送指令，搜集状态，跟踪数据块的完好性  数据块创建、复制及负载均衡 ◦对 ChunkServer 的空间使用和访问速度进行负载均衡，平滑数据存储和访问请求的负载 ◦对数据块进行复制、分散到 ChunkServer 上 ◦一旦数据块冗余数小于最低数，就发起复制操作 21

22 .Master 节点的任务  垃圾回收 ◦在日志中记录删除操作，并将文件改名隐藏 ◦缓慢地回收隐藏文件 ◦与传统文件删除相比更简单、更安全  陈旧数据块删除 ◦探测陈旧的数据块，并删除 22

23 .GFS 架构的特点  采用中心服务器模式 ◦可以方便地增加 Chunk Server ◦Master 掌握系统内所有 Chunk Server 的情况，方便进行负载均衡 ◦不存在元数据的一致性问题 23

24 .GFS 架构的特点  不缓存数据 ◦GFS 的文件操作大部分是流式读写，不存在大量的重复读 ? 写，使用 Cache 对性能提高不大 ◦Chunk Server 上的数据存取使用本地文件系统，如果某个 Chunk 读取频繁，文件系统具有 Cache ◦从可行性看， Cache 与实际数据的一致性维护也极其复杂 24

25 .GFS 架构的特点  在用户态下实现 ◦直接利用 Chunk Server 的文件系统存取 Chunk ，实现简单 ◦用户态应用调试较为简单，利于开发 ◦用户态的 GFS 不会影响 Chunk Server 的稳定性  提供专用的访问接口 ◦未提供标准的 POSIX 访问接口 ◦降低 GFS 的实现复杂度 25

26 .GFS 的容错方法  GFS 的容错机制 ◦Chunk Server 容错  每个 Chunk 有多个存储副本（通常是 3 个），分别存储于不通的服务器上  每个 Chunk 又划分为若干 Block （ 64KB ），每个 Block 对应一个 32bit 的校验码，保证数据正确（若某个 Block 错误，则转移至其他 Chunk 副本） 26

27 .GFS 的性能 27

28 .Google 云计算原理并行数据处理模型 MapReduce

29 .并行计算基础  摩尔定律 ◦集成电路芯片上所集成的电路的数目，每隔 18 个月就翻一番，同时性能也提升一倍 Gordon Moore

1点赞

0收藏

0下载