软件与数据工程研究中心

下载 0

Oliver

发布于

1936

人观看

#信息技术

... 年前就已经和UC Berkeley一起紧密合作，围绕Apache Spark做出大量贡献。 ... 二级索引）、MPP、lambda architecture（1和2）、Kylin（OLAP工具，比hive快，为SQL ...

展开查看详情

1 .

2 . 介绍 • 中国大数据技术大会前身是 Hadoop 中国云计算大会 • 描绘大数据领域内的技术热点，沉淀行业实战经验，见证整个大数据生态圈技术的发展与演变 • 提出学习的方法：找个平台看看我们能做什么，而不是闷头看书 • 技术热点： Spark 、机器学习（尤其是大数据平台上的深度学习）、流数据处理和实时快速分析以及在 Hadoop 上的快速 SQL 接口 • 大多数在讲公司的平台架构和一些公司用的开源项目

3 .

4 .2015 年大数据基础技术的演进趋势 • 星环科技 CTO 孙元浩的演讲主题是“ 2015 年大数据基础技术的演进趋势”。期间，他一共总结了四大趋势： • SQL on Hadoop 技术对 SQL 支持的完整度和性能大幅提升，混合架构将逐渐消失 • 从 In-Memory Computing 转向 On-SSD Computing ，固态盘将替代内存作为缓存 • 数据产生的速度以及处理的速度要求都在快速提高，实时大数据技术得到关注 • 虚拟化技术的快速演化与 Hadoop 技术的日益平台化，云计算与大数据终得融合期间，他分享了 Spark 的一个数据：全球已有近 50 家企业围绕 Spark 提供产品和服务， 11 家提供商业 Spark 版本。

5 .一、混合架构逐渐消失混合架构 1 、 Hadoop 离线处理非结构化的数据，对于结构化的数据用关系型数据库协助 2 、数据量小的时候，大家发现 Hadoop 的性能不如传统的 MPP 数据库

6 .一、混合架构逐渐消失 Impala- 类似于 MPP 的引擎 Tez- 吸收了 Spark 的一些设计思想。 Transwarp Inceptor- 基于 Spark 开发的 SQL 引擎，目前支持 SQL2003 ，支持函数、游标等功能 SparkSQL 和 Drill Spark 会成为一个主流

7 .一、混合架构逐渐消失 • Hadoop 的 SQL 支持程度已经接近 MPP 数据库 • 现在 Hadoop 性能可以超过 MPP 若干倍 • 传统的 BI 厂商都已经转向 Hadoop ， Hadoop 系统的 BI 工具也越来越丰富，还有一些新兴的创业公司在 Hadoop 上开发全新的 BI 工具，这些工具原生支持 Hadoop ，从这个角度来讲 Hadoop 的生态系统将很快超越传统 MPP 数据库。现状： SQL 支持仍然不够完整，而通过 Spark 可以快速并行化 SQL ， S QL 支持的完整程度可以快速提高。同时，通过 Spark 引擎我们证明新引擎性能可以超过 MPP 数据库。我们发现一个事实现在 Spark 成为最受欢迎的计算引擎

8 .二、内存可以被大容量的 SSD 取代做缓存 SSD 价格便宜，速度也很快，相对于内存，性价比还是很高的现有的 TXT 和行列混合等文件格式不足以利用 SSD 的高性能如果使用 SSD ，还需要为 SSD 设计专有的数据格式两个趋势：基于磁盘的 Hadoop 借鉴内存数据库的经验设计新格式为 SSD 优化现有的内存数据库为 SSD 优化

9 .三、实时大数据的技术得到更多关注

10 .三、实时大数据的技术得到更多关注 • 随着现在传感器网络、物联网的发展，数据产生的速度越来越快，当然在互联网里面早就有实时数据产生，使得实时大数据的技术慢慢开始得到更多的关注，我们预计明年有更多的应用。

11 .Hadoop Storm 融合架构— Lambda Architecture （没有实战经验，所以好多理解不了各种问题、优缺点）

12 .

13 .四、云计算和大数据终于可以融合起来让 Hadoop 成为一种服务（东西太多）

14 .• 虚拟机帮助快速部署已经得到了时间的验证，这种方式把一台机器拆分到很多小机器，每台机器给用户使用。大数据觉得一台机器不够，我需要上千台、几百台机器组成一台机器处理。这个怎么融合起来，是不是我把虚拟机替代物理机做成了一个集群？这个尝试基本上都是失败的，因为 IO 的瓶颈是非常严重的，特别是在虚拟机跑大数据应用， CPU 利用往往达到 99% ，很少有人在虚拟机上把 CPU 用到 99 % ，这样对 hypervisor 是很大的考验，稳定性成为一个大问题。最近一两年虚拟化技术在快速发展，不亚于一场新的技术革命。首先轻量级的 Linux container 技术出现， container 之间可以做资源隔离，这使得虚拟机变得非常轻量级。很快一家公司叫做 Docker 发现应用打包迁移安装还是不方便，所以做了一个工具，使得你做应用打包迁移非常容易。大家发现还不大够，因为我要创立单个 container 或者单个应用比较容易，但是多个 container 应用就很麻烦。谷歌开发一个开源项目叫做 Kubernetes ，简化了创建 container 集群的任务，你可以非常方便的创建 Hadoop 集群，也可以创建传统的应用，提供多 container 集群的部署同时也提供一些基础服务，比如说一些调度服务，这开始具备分布式操作系统的雏形。另外一个方向像大数据领域去年推出 Hadoop2.0 资源管理的框架 YARN ，这个确实是革命性的，因为把资源管理放在最底层，在上面可以跑多种计算框架，我们觉得可以一统天下了。随后大家发现 YARN 资源隔离做得不够好，内存／磁盘／ IO 没有管好。因此 Hortonworks 尝试把 Google Kubernetes 作为 YARN 的一个 Application Manager, 内部用 Docker 进行资源调度。而另一家公司 mesosphere 异军突起，以 mesos 为资源调度核心，以 docker 作为 container 的管理基础工具，开发了一套分布式资源管理的框架，提出了数据中心操作系统的概念。这家公司最近融资了数千万美元。尽管底层技术在快速变化，但不妨碍一些公司已经提供 Hadoop a s a Service 的服务，例如 AltiScale ， BlueData ， Xplenty 等。 • 大家看到在这个领域过去一两年发生了革命，从底层虚拟化技术到上层都在发生非常大的变化。逐渐引出了数据中心操作系统的概念。我们把数据中心操作系统分成三层，最底层就跟操作系统内核是一样的，可以方便的创建方便销毁计算资源，包括对 CPU ／网络／内存／存储进行处理。同时我们还需要多个服务之间能够发现这种机制，这种机制是目前还是缺乏的，我们需要在这一层继续往上加一些基础服务。再往上是平台服务，我们可以创建 Hadoop 、 Spark 等我们可以部署这样传统应用。这种架构提出来我们发现现在市场上有几种，两个技术方向，我们不知道哪一种会获胜。一个方向是把 YARN 作为资源调度的基础， Kubernetes 作为运行在 YARN 上的某一个应用框架，但实际上 Kubernetes 是和 YARN 并列在同一层的。另外一个技术方向是把调度器抽象出来作为 plugin ，例如 YARN 和 mesos 都可以作为 Kubernetes 的调度器，当然也可以实现自己的调度程序；使用 docker 或者 coreOS 进行 container 的管理，而 hadoop 等分布式服务运行在 Kubernetes 之上。对下能够提供资源隔离和管理，对上面能够提供各种服务，包括 Hadoop 生态系统的各种服务，这个可能是明年的主流趋势，现在还很难判断谁会获胜，但是我更倾向于第二种，我们可以首先尝试这两种方案，看哪种方案更有生命力。

15 .

16 .ML on Big Data- 大数据机器学习 • 深度学习 - 余凯

17 .深度学习适合大数据 • 第一方面，深度学习模拟了大脑的行为。一开始做深度学习这帮人，他们的想法受到卷积神经系统网络的影响，在 80 年代受到了神经科学家对于视觉神经系统理解的影响 • 第二，从统计和计算的角度来看，深度学习特别适合大数据 • 第三，深度学习是 End-to-end 学习 • 第四，深度学习提供一套建模语言

18 .大数据时代传统深度学习的误区 • 统计分析机器学习系统效果 • A- 数学模型不完美 • E- 数据不完美 • O- 算法不完美

19 .大数据时代传统深度学习的误区 • 随着数据规模的扩大，从推广误差的角度来说，传统的深度学习研究中存在着一些误区： • 从 Approximation error 的角度来说，过去我们认为简单的模型就是好的，但实际上简单的模型是不够好的，随着机器的增多，参数越来越多，模型越来越复杂，是大趋势，过去认为简单的模型是好的这是错误的观念 • 从 Estimation error 的角度来说，为了保证数据的精确，应该收集充分的数据 • 从 Optimization error 的角度来说，通常是学术界的观点是，开发研究非常精致的优化算法，但是这些算法存在一个大问题：不能覆盖大数据。比如， SVM 的复杂度是在数据二次方到三次方之间的复杂度，今天处理一万个训练样本没问题，但是如果变成十万个训练样本，你需要一百倍到一千倍的计算资源，这是灾难性的问题，所以在大数据的时代，工业界反而要倡导的是 desgin “an OK algorithm”

20 .Experience-Centric Software Defined Infrastructure Platform • 网络的延迟一直是互联网面临的难题，没有一个很好的办法来解决。但是随着以下三项互联网技术的发展，使得改善用户的互联网体验成为了现实： • 企业可以从用户端提取细颗粒信息 • 软件定义的迅速发展 • 大数据的实时技术发展。

21 .Experience-Centric Software Defined Infrastructure Platform （方向？） • 网络的延迟一直是互联网面临的难题，没有一个很好的办法来解决。但是随着以下三项互联网技术的发展，使得改善用户的互联网体验成为了现实： • 企业可以从用户端提取细颗粒信息 • 软件定义的迅速发展 • 大数据的实时技术发展。

22 .提取细颗粒信息 • 我们知道现在从网上看视频，或者下载一个 APP 看视频，这个过程中我们浏览的视频，下载的视频都会被收集起来。服务商可以通过在软件植入代码来实现。这样就可以获得用户的一些基础信息。

23 .软件定义 • 根据用户客户端数据的反馈（卡断率、失败率等），实时分析出合适的码流路径，使得视频流畅 • 不同参数质量好坏对于一个服务器来讲在不同时间是不一样的，所以没有一个固定路径是最好，而且没有一个固定的指标是一个路径比另外一个路径绝对好 • 引进冗余

24 .实时的大数据技术和算法 • 这个算法就是概念上是一个很简单的概念，做起来稍微复杂一点。概念是什么概念？如果我们把每一个网上的视频都在采样，就像我们在北京每辆车上都装一个摄象头，知道他车速是什么情况？我车越多，但是我路上没有摄象头，车越多我的路况了解就越多，我要知道北京所有车的速度怎么样，我就基本上知道北京路况是怎么样。但是卡车和出租车走的速度是不一样，也许你骑摩托车和坐卡车的速度不一样。细分起来找一个概念是这样的，比如说这个会场里面大家看一个直播的视频，现在有一个新的人来看，用哪一条新的路径去选？算法我就不深入去讲了，但是我想说一两个，你观察数量越多，观察颗粒越细，采集数量点越大，你最后达到预测的效果越好。

25 .Experience-Centric Software Defined Infrastructure Platform • 观察数据越多，粒度越细，效果越好（车辆越多，观察的东西越多，越能知道路况） • 实时才能控制，不实时只能分析（ Spark 做实时处理）

26 .大数据技术核心 • 大数据系统面临的严重挑战 • 大数据系统核心技术简介 • 数据流与大数据引擎的创新（从系统软件的角度讲，理解不了）

27 .

28 .大数据系统引擎面临挑战

29 .大数据系统核心技术简介

1点赞

0收藏

0下载