申请试用
HOT
登录
注册
 
7.大数据简介及发展现状-王安
0 点赞
0 收藏
2下载
3306π社区
/
发布于
/
62
人观看

###Hadoop技术栈发展历程和现状

内容介绍

Hadoop项目从正式命名到现在已接近15年,经过多个版本迭代和组件重构,目前各类组件基本覆盖了数据采集、数据存储、数据计算和数据分析的全套技术方案。主题从Hadoop发展历程入手,讲解核心组件的前世今生以及在金融领域的部分应用场景。

作者信息

王安 建信金融科技大数据技术研究员,从业7年,目前致力于Hadoop技术栈相关组件的研究和推广

展开查看详情

1.

2.01 02 03 04

3.

4.指无法在一定时间范围内用常规软件工具进行捕捉、 管理和处理的数据集合,是需要新处理模式才能具 有更强的决策力、洞察发现力和流程优化能力的海 量、高增长率和多样化的信息资产。

5. 对于“大数据”(Big data) 研究机构Gartner给出了这样 的定义。 “大数据”是需要新处理模式 才能具有更强的决策力、洞 来适应海量、高增长率和多样 察发现力和流程优化能力。 化的信息资产。

6.1 不是随机样本 而是全部数据 2 不是因果关系 而是相关关系 3 不是精确性 而是混杂性

7.

8. 指获得数据的速度 数据的大小决定所考虑的数 据的价值和潜在的信息 合理运用大数据,以低成本 创造高价值 数据的质量 数据类型的多样性

9. 大数据包括结构化、半结构化和非结构化数据, 结构化 非结构化数据越来越成为数据的主要部分。 非结构化 据IDC的调查,报告显示: 企业中80%的数据都是非结构化数据,这些数据每年都按指数增 长60%。大数据就是互联网发展到现今阶段的一种表象或特征而 半结构化 已,没有必要神话它或对它保持敬畏之心, 在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很 难收集和使用的数据开始容易被利用起来了,通过各行各业的不 断创新,大数据会逐步为人类创造更多的价值。

10. 3.x Hadoop 最新版本3.2.2 Release MapReduce计算框架 JDK运行环境升级 HDFS分布式文件系统 性能调优 04 Hbase结构化数据分布式存储 02 ITEM 2006 年 01 03 2002 2012 年 年 Nutch 2.x 构建全网搜索引擎 架构调整,高可用 性能瓶颈 YARN资源管理 谷歌论文(GFS、 支持MapReduce之外的计算框架 MapReduce、BigTable)

11.

12. 数据采集 数据计算 Kafka、Sqoop、Flume、Logstash Spark、Flink 数据存储 数据分析 HDFS、Hbase、Hive、ES Kylin、Clickhouse、Druid

13.高容错 多副本机制,通过多个副本提高容错性 当一个副本数据丢失后会自动恢复 大容量 处理数据PB级别 节点规模可达10K以上 数据一致性 一次写入,多次读取。文件一旦写入不能修改, 只能追加。

14. 商务智能, 在互联网高速发展的当下,大数据分析已 是潮流,各行各业中都在引用。通过分析 挖取数据价值 能够获取很多智能的、深入的、价值的信 息。然而,在日常工作生活中,大数据分 析驱动业务增长同样伴随着存在着诸多现 实瓶颈。诸如业务发展瓶颈、IT中心瓶颈、 大数据应用瓶颈。BI平台的成功实施能够 切实有效地帮助企业用户解决上诉瓶颈, 助力企业实现业务瘦身,轻松获取大数据 分析信息。

15. 数据迁移 数据增量导入 可视化分析 一次性将数据导入 涉及事务的应用数 将Hadoop产生的结果 Hadoop存储系统 据 批 量 同 步 至 导入关系型数据库进 Hadoop 行可视化展示

16.

17. 语音识别  文字识别 多场景语音服务支持专家,让你的设备长上耳朵, 依托业界领先的深度学习技术,提供了自然场景 让你的设备开口说话 下整图文字检测、定位、识别等功能  人脸识别  深度学习 基于智能人脸分析算法,提供人脸检测、人脸识 针对海量数据提供的云端托管的分布式深度学习 别、关键点定位、属性识别和活体检测等一整套 平台,助力客户轻松使用深度学习技术,打造智 技术方案 能应用和服务  机器学习  自然语言 基于内部应用多年的机器学习算法库,提供实用 基于自然语言处理技术,对人类自然语言进行分 的行业大数据解决方案 析、理解、生成、翻译,实现自然的人机对话交 互

18. 云计算的深度结合:大数据离不开云处理, 数据科学和数据联盟的成立:未来,数据 云处理为大数据提供了弹性可拓展的基础设备, 科学将成为一门专门的学科,被越来越多的人 是产生大数据的平台之一。自2013年开始,大 所认知。各大高校将设立专门的数据科学类专 数据技术已开始和云计算技术紧密结合,预计 业,也会催生一批与之相关的新的就业岗位。 未来两者关系将更为密切。 数据的资源化:是指大数据成为企业和 科学理论的突破:随着大数据的快速发展, 社会关注的重要战略资源,并已成为大家 就像计算机和互联网一样,大数据很有可能是 争相抢夺的新焦点。因而,企业必须要提 新一轮的技术革命。随之兴起的数据挖掘、机 前制定大数据营销战略计划,抢占市场先 器学习和人工智能等相关技术,可能会改变数 机。 据世界里的很多算法和基础理论,实现科学技 术上的突破。

19.• 如果正确的数据出现在合适的时间,您的业务将有望获得什么机会?如何更有效率地运营您的业务?通过数据分析 获得变革的潜力与直观理解影响着医疗、银行、交通运输、制造等各行各业。 • 对于许多早期的使用者,当他们从传统商业智能 (BI) 的实践发展到可靠直观理解的更高级分析(预测性和规范性) 时,数据改变了他们的业务,无论是通过新的发现、更尖端的产品和服务或总体更好的客户体验。

20. 优化 改变 各级政府、主管部门、上市公 因大数据系统的出现,所有依 司、企业集团、外资公司都将 赖信息不对称盈利的业务都将 基于大数据分析平台优化其决 消失。 策。 颠覆 革命 银行都将基于企业大数据平台 大数据分析能力逐渐加强,传 开展银行直销业务,按照产业 统市场研究行业、产业链咨询 链金融服务事业部模式开展业 机构将逐渐消失。 务

21.教育学 情报学 公共服务 生物医学 商业智能 天文学 电子政务 传媒业 气候学 企业管理 金融学 生活娱乐 总统选举 图书馆学 市场营销

22.

0 点赞
0 收藏
2下载