关于大数据的研究与思考

各行各业的科学研究和工程技术人员普遍认识到大数据将会改变人类的思维方式和社会的 .... Search大数据平台主要有IBM BigInsights、LucidWorks Big Data、Sumo ...
展开查看详情

1.关于大数据研究的思考 杨 善林

2.前 言 习 近平总书记最近指出:“进入 21 世纪以来,新一轮科技革命和产业变革正在孕育兴起,全球科技创新呈现出新的发展趋势和特征”。学科交叉融合加速,新兴信息技术广泛渗透,带动了几乎所有领域发生了以绿色、智能、泛在为特征的群体性技术革命 。

3. 对大数据的认识 相关 工作实例 互联网与大数据对产业发展的影响 提 纲

4. 从 上世纪 70 年代以来,互联网技术尤其是后来的移动互联网技术及其应用一直保持着快速发展。互联网技术与自动数据采集技术、自动控制技术和无线通信技术的融合发展,形成了智能物联网技术。互联网技术与数据中心技术、智能终端技术、高速通信技术和复杂数据处理技术的融合发展,形成了云计算技术。由此可见,物联网技术和云计算技术都是互联网技术的新发展 。 一 对 大数据的认识

5.分布式存储与计算技术 计算资源配置与动态管理技术 复杂数据处理技术 宽带通信技术与无线通信技术 移动智能终端技术 智能感知与智能控制技术 信息与网络的安全和可靠性技术 新一代互联网技术 互联网、物联网、云计算的应用技术 与 互联网、物联网和云计算相关的核心 技术 一 对 大数据的认识

6. 在互联网环境下,由智能终端、网上交易、社交网络和视频图像等各种途径产生了大规模、多样性的数据集。互联网时代的数据拥有了全然不同的价值内涵。 各行各业的科学研究和工程技术人员普遍认识到大数据将会改变人类的思维方式和社会的生产方式,对经济和社会的发展必将产生巨大的影响。他们都从各自的视角来思考和研究大数据可能带来的重大变革。 一 对 大数据的认识

7. “ 大数据是一个大的数据池,其中的数据可以被采集、传递、聚集、存储和分析。目前,大数据是全球经济每个部门和功能的一部分。与固定资产和人力资本等其它重要的生产要素类似,没有数据,很多现代经济活动、创新和增长都不会发生,这正成为越来越普遍的现象。 ” 全球著名的咨询服务公司麦肯锡( McKinsey & Company )的定义 这个定义指出大数据是一个大的数据集合,它与固定资产、人力资本一样,也是一种生产要素,并能支持现代经济增长和创新活动。因此,大数据研究的关键科学问题应该是大数据与经济增长和创新活动的关系。 一 对 大数据的认识

8. “ 可以用四个特征来描述大数据,即规模性( Volume )、高速性( Velocity )、多样性( Variety )和真实性( Veracity ),这些特征相结合,定义了 IBM 所称的“大数据”。 ” 全球著名信息设备和信息服务提供商 IBM 公司的定义 这个定义显然也是把大数据定义为一种数据集合,而且这些数据具有规模性、高速性、多样性和真实性。所以,大数据研究所关心的科学问题就应该是对结构多样性的大数据能够进行高速存储和高速处理的技术。 一 对 大数据的认识

9. “ 大数据是指由科学仪器、传感器、网上交易、电子邮件、视频、点击流和 / 或所有其它现在或将来可用的数字源产生的大规模、多样的、复杂的、纵向的和 / 或分布式的数据集。 ” 美国国家科学基金会( NSF )的定义 这个定义指出了大数据是一类数据集,并指出了大数据现在和将来的数据来源,以及大数据具有大规模、多样性、复杂性、分布性、关联性等数据特征。这个定义对开展大数据的科学研究没有设置任何边界。 一 对 大数据的认识

10. “ 大数据是指规模庞大且复杂的数据集合,很难用常规的数据库管理工具或传统数据处理应用对其进行处理。其主要挑战包括数据抓取、策展、存储、搜索、共享、转换、分析和可视化。 ” 维基百科( Wikipedia )的定义 显然这个定义是从大数据的处理方法和处理工具的视角来看待大数据的,根据这个定义,大数据研究应该围绕大数据的快速处理方法和软件工具的研发来展开,研究的目的就是要得到大数据的快速处理方法和非常规的软件工具。大数据始终在“大数据”和“非大数据”之间不断的转换。 一 对 大数据的认识

11. “ 大数据是一类能够反映物质世界和精神世界的运动状态和状态变化的信息资源,它具有决策有用性、安全危害性以及海量性、异构性、增长性、复杂性和可重复开采性,一般都具有多种潜在价值。 ” 从管理的视角看大数据 这个定义把大数据看做是一类资源,它具有决策有用性,对经济社会发展具有重要的潜在价值。按照大数据的资源观,大数据研究的关键科学问题应该包括大数据的获取方法、加工技术、应用模式以及大数据的产权问题、相关的产业发展问题和相应的法律法规建设问题。 一 对 大数据的认识

12.大数据可能造成的威胁 2014 年 6 月 4 日 , 《China Daily》 头版报道:安全分析人士指出,美国国安局要求谷歌、苹果、雅虎、思科、微软和 Facebook 等技术服务商向其提供用户信息,这会给中国用户造成网络安全威胁。随着大数据和云计算的流行,很多信息能够即刻收集并分析,造成的危害会更大且更加难以防护。 http://usa.chinadaily.com.cn/epaper/2014-06/04/content_17561758.htm 一 对 大数据的认识

13. 关于大数据的安全性问题,我们的一位青年学者(周开乐)做了很好的思考,在 2014 年 7 月 4 日出版的 《Science》 杂志上发表了一篇短文,摘要如下: 大数据是一把双刃剑。在采集、挖掘和分析数据时,可能面临着严重的安全和隐私问题。例如,很多年轻研究人员经常从社会媒体或电子商务网站上抓取、解析、存储和挖掘数据,其中可能涉及一些关键的个人隐私信息。而且,还面临着存储的数据被非法利用的安全风险。为了解决这一具有挑战性的问题,可以采取至少三个方面的措施。首先,宣传和教育是至关重要的。例如,可以开设一些关于安全和隐私伦理问题的专门课程。其次,严格的约束和规范是必须的,应该进一步建立和完善大数据环境下关于安全和隐私的政策法规。第三,可以设计更先进的数据挖掘、文本挖掘和 Web 挖掘方法。例如,很多研究已经关注了基于隐私保护的数据挖掘 。 一 对 大数据的认识

14.Data Platforms Landscape Map , 2014 年 2 月 大数据平台研究全景图 一 对 大数据的认识

15.非关系型 ( Non-relational )大数据管理 平台 - as-a-Service 大数据平台主要有 Amazon EMR 、 Google Compute Engine 、 Microsoft Hdinsight 、 AWS Kinesis 等 。 New SQL databases 大数据平台主要有 Oracle Big Data Appliance 、 Metascale 、 Treasure Data 、 Qubole 等 。 Search 大数据平台主要有 IBM BigInsights 、 LucidWorks Big Data 、 Sumo Logic 、 NGDATA 等。 一 对 大数据的认识

16.关系型( Relational ) 大 数据管理平台 General purpose 的 大数据管理 平台 主要 有 PostgreSQL , MySQL , Oracle Database , IBM DB2 , SQL Server 等。 General purpose 和 -as-a-service 兼顾 的大数据管理 平台 主要 有 Rackspace Cloud Databases , Google Cloud SQL , FathomDB , SQL Azure , StormDB 等 Specialist analytic 大 数据管理 平台 主要 有 SQL Server PDW , IBM Netezza , Teradata , Oracle Exalytics , Kognitio 等 一 对 大数据的认识

17. 网格型( Grid )大数据管理 平台 Data-caching 大数据平台主要有 Amazon ElastiCache 、 IronCache 、 MemCachier 、 Redis Labs Memcached Cloud 等。 In-memory 大数据平台主要有 IBM eXtreme Scale 、 CloudTran 、 Oracle Coherence 、 GigaSpaces XAP 等。 Hadoop 大数据平台主要有 Pivotal Gemfire 、 GridGain 、 ScaleOut Software 等。 一 对 大数据的认识

18.二 相关工作实例 近几年来, 我们重点研究了几类基于互联网与大数据的信息服务系统。下面以警务数据智慧应用平台、互联网汽车和无人飞行器编队的高动态自组织联合搜索系统为例,报告我们的研究工作。

19. 利用大数据分析系统能够有效协助警方破案。在案件分析过程中,主要涉及人员、 时间、 地点、物件、组织和事件等六类要素。在系统中,必须建立统一标准的基础数据库、面向主题的数据仓库、描述六要素关系的关联库以及标准的数据提取、转换、加载和处理方法库。通过该系统,可以进行案件分类分析、案件串并分析、作案范围分析、涉案人员分析、流入人员嫌疑度分析、外地同类前科人员本地关系人分析、同类案件前科人员嫌疑度分析等。 实例一:警务数据智慧应用平台 二 相关工作实例

20.数据源 数据处理 数据存储与管理 数据挖掘分析 数据展现 人员分析 要素 关联展示 轨迹 分析 统计 报表展示 事件 分析 互联网数据 社会数据 动态 数据 访问 接口 关联分析 可视化分析展示 梳理 清洗 转换 ETL 任务 结果展示 聚类分析 数据中心 数据分析与展现 时间 人员 地点 物件 组织 事 件 公安内部数据 全文 数据库 统计分析 物品分析 图 1 警务数据智慧应用平台的数据流程 数据仓库 二 相关工作实例

21.各警种共享数据 多维分析 情报挖掘 事件预警 案件串并分析 专题分析 公安数据 社会数据 互联网数据 数据管理 数据整合 数据仓库 数据服务 数据应用 应用访问 数据中心 情报中心 领导决策 网安技侦 服务平台 服务接口 权限管理 服务监控日志 数据源 … … 图 2 警务数据智慧应用平台的体系结构 二 相关工作实例

22.图 3 警务数据智慧应用平台中的人员主体分析 二 相关工作实例

23.图 4 人员主体分析 - 人员基本情况 二 相关工作实例

24.图 5 人员主体分析 - 轨迹分析 二 相关工作实例

25.图 5 人员主体分析 - 轨迹分析 二 相关工作实例

26.图 6 人员主体分析 - 轨迹分析 二 相关工作实例

27.图 7 人员主体分析 - 关系分析 二 相关工作实例

28.图 8 人员主体分析 - 涉物分析 二 相关工作实例

29.图 9 人员主体分析 - 涉物分析 二 相关工作实例