数据科学:探索数据界

数据科学:探索数据界
展开查看详情

1. ) TC BD 数据科学与大数据技术教育论坛 ( 会 大 术 数据科学:探索数据界 技 据 数 报告人:熊贇 大 国 中 复旦大学 18 上海市数据科学重点实验室 20

2. 内容提要 20 18 中 数据界 国 大 数 据 技 术 科学 数据 大 会 ( BD TC ) 数据 科学家

3.数据界 ) 作者、出版社生产信息 TC 图书、图书馆存储和传播信息 BD 第一次数据爆炸 图书存储到计算机中 技术的进步使得帮助人类记忆 ( 无法过目不忘 的设施获得重大发展 会 印刷术、造纸术 图和文字帮助记忆 第二次数据爆炸 大 大脑记忆 术 技 据 数 大 国 计算机及存储设备 ??第三次数据爆炸 中 刻图刻字 更易共享,传播更快 ??新的设备 18 帮助记忆,易于传播、交流 20

4. 数据界 20 18 中 国 大 数 据 技 术 大 会 ( BD TC )

5. 身 据 数 数据界 20 18 中 国 大 数 据 技 术 大 会 ( BD TC )

6.数据界 自然界Nature 数据界DataNature ) TC 数据表示自 BD 然界中存在 的东西 ( 会 大 术 一些数据不 技 表示自然界 据 中任何东西 数 大 所有自然界 国 中东西都有 中 数据表示; 18 数据正确性真实性没有保证 数据一致性越来越困难 数据共享越来越困难 很多数据不 数据综合症 表示自然界 20 的任何东西

7.数据界 ) 探索数据界 TC 数据界有多大、有多少数据? BD 数据以什么方式增长?数据增长对人类影响? ( 会 大 术 技 据 数 大 国 中 18 20

8.数据界 数据界的真实性 ) TC 看到的数据是否真实 BD ( 数据是否真实表示了现实 会 大 术 看到的是搜索引擎展现的数据界 技 据 数 数据界 大 如何看到一个真实的数据界? 国 中 18 搜索的问题: 20 隐藏了数据界的真实性

9.数据界 ) 数据对象测度与数据代数 TC BD ( 1)布尔代数 会 2)关系代数 大 术 + 技 = 据 数 大 ? 国 中 18 20

10. 内容提要 20 18 中 国 数据界 大 数 据 技 术 科学 数据 大 会 ( BD TC ) 数据 科学家

11.数据科学 ) 数据科学:认识数据发展变化的规律 TC BD ( 会 大 新的科 新的研 新的 术 学问题 究对象 科学 技 据 数 大 国 中 新的科学问题、新的研究对象需要新的科学 18 20

12. 数据科学术语 )  1966 年 , Peter 建 议 将 计 算 机 科 学 称 为 数 据 科 学 ( 当 时 使 用 “Datalogy”一词),即“研究数据使用和本质的科学”; TC  1990年,CODATA将数据科学描述为处理科学数据的科学,并于 BD 2002年将其创办的期刊命名为Data Science Journal;  1996年,Chikio将数据科学描述为数据统计、数据挖掘和相关方 ( Peter Naur 法的综合;  2001年,William提出将数据科学作为一个独立的学科的观点,所 会 The Science of Datalogy, 定义的数据科学是统计学的扩展。 大 CACM, 1966:  2009年朱扬勇和熊贇将数据科学描述为研究网络空间中数据的形 术 9(7) 态、现象和规律的科学,即研究数据的科学或关于数据的科学;  2010年,Mike将数据科学描述为数据的应用及其产物,目标是 技 Datalogy: the science of 从数据中提取出意义(信息和知识)和创造数据产品。 the nature 据 数 and use of 数据科学在科学数据处理领域、计算机科学领域、统计学领域 大 data. 等都已经提出了相应的概念和观点。 国 维基百科认为数据科学结合不同元素,并建立在不同领域的技 中 术和理论之上,这些领域包括数学、统计、数据工程、模式识 18 别和学习、高级计算等,使用所有可用的数据和相关的数据使 20 非专业人士易于理解其阐述的内容是数据科学的目标。

13.数据科学的一些观点 ) 观点一: Data science is the science of studying scientific data. TC BD CODATA regards data science as the methods and technologies used to conduct scientific research through management and utilization of ( scientific data. 会 大 The Committee on Data for 术 Science and Technology 技 (CODATA) launched the Data Science Journal in 2002. 据 数 大 数据主要是指科学研究产生的数据,强调科学数据管理、处理和利用 国 中 即 通 常 被 称 为 data-intensive scientific research or fourth 18 paradigm of scientific research. 20

14.数据科学的一些观点 ) 观点二: Data science is the science of studying business data. TC BD In 2010, Loukides discussed what data science is, arguing that data ( science should enable the creation 会 of data products rather than working as a simple application 大 with data. 术 技 In 2013, Provost et al. pointed out, 据 “extracting knowledge from data 数 to solve business problems” is one 大 of the fundamental concepts of data science. 国 中 从业务数据中获取知识辅助决策是数据科学的一个方面。 18 许多BI科学家也被称为数据科学家。 20 相比BI问题,数据科学更聚焦BI方法学。

15.数据科学的一些观点 ) 观点三: The purpose of data science is to solve scientific and TC business problems by extracting knowledge from data. BD In 2013, Dhar defined data science as “thestudy of the ( generalizable extraction of knowledge from 会 data”. He also pointed out that a data scientist needs to 大 上述观点中数据科学的研究对象仍然是自然界中的事物 have comprehensive skills covering statistics, machine 术 learning, AI, and database management and have a deep 技 研究问题仍然是现有科学领域的研究问题 understanding of problem design. 据 数 观点四: Data science is an integration of statistics, computing 大 technology, and AI 国 中 It is generally believed that data scientists should have skills in statistics, computing 18 technology, AI, and related fields 20 整合的观点

16.科学数据和数据科学 ) TC 科学数据 数据科学 BD 研究数据 ( 自然科学 会 科学研究过程中 PM2.5 320 收集、处理、分析科学数据 大 产生的数据 术 用数据做研究 社会科学 技 数据界中包括两类数据:一是,表示自然界中事物的数据;一是,不对应于自 然界中的事物的数据。 据 数 ?????? 大 国 DNA 中 作为科学研究 社交网络 18 对象的数据 网络空间数据 (计算机病毒) 20 在数据上做研究

17.数据科学 ) 数据科学:研究数据的科学或关于数据的科学,是探索网络空间数据奥秘 TC 的理论、方法和技术。主要有两个内涵: BD ( 会 大 术 研究数据的各种类型、状态、属性, 为自然科学和社会科学研究提供一 组织形式、变化方式和变化规律, 种新的方法,称为科学研究的数据 技 即认识数据、掌握数据; 方法,其目的在于揭示自然界和人 据 类行为现象和规律。 数 大 国 中 18 20

18.数据科学 ) 自然科学 TC BD 数学科学 法学 天文学 ( 物理学 心理学 会 大 金融学 术 数据科学 技 计算机科学 经济学 据 数 社 大 生命科学 历史学 会 国 科 中 地球科学 化学 18 医学 学 20 其他 其他科学

19.数据科学研究内容 ) TC BD ( 会 数据科学 科学研究 数据界探索 数据技术 大 基础理论 数据方法 及其应用 术 相似性的定义、相似性计算、相似性函数的性 技 质及分类、相似性函数评估准则等。 据 数 定义数据集及其测度;定义数据运算,分析数 大 据集的代数结构特性。 国 中 18 数据勘探、数据实验、数据感知 20

20.数据科学研究内容 ) TC BD ( 会 科学研究 数据界探索 数据技术 大 数据科学 基础理论 数据方法 科学研究 及其应用 术 数据方法 技 据 领域数据学 数 大 各领域专门的理论、技术和方法,从而形成 专门领域的数据学,例如:脑数据学、行为 国 数据学、生物数据学、气象数据学、金融数 中 据学、地理数据学等等。 数据方法框架 18 20

21.数据科学研究内容 ) TC BD ( 会 大 数据科学 科学研究 数据界探索 数据技术 术 基础理论 数据方法 及其应用 技 数据规律研究 据 数据分类 数据界安全 数 数据界的大小、数据 研究分类标准,建立数据本体 研究网络空间的数据安全、 大 的增长方式、数据真 (称为数据百科全书),并建立 数据主权问题;将数据科 学的理论和方法应用于军 国 实性、数据增长对人 这些本体概念的相似关系和联系; 类社会的影响等等 对已有数据集根据分类标准和数 队信息化建设,建立军事 中 据本体进行分类,形成人类认识 数据学;将密码研究方法 等用于数据科学研究。 18 数据界的基本类别。 20

22.数据科学研究内容 ) TC BD ( 会 数据科学 科学研究 数据界探索 数据技术 大 基础理论 数据方法 及其应用 术 技 据 数 大 国 中 18 20

23. 内容提要 20 18 中 国 数据界 大 数 据 技 术 科学 数据 大 会 ( BD TC ) 数据 科学家

24.数据科学家 ) TC BD 大数据时代,数据科学家是最性感的职业, ( 而不是数据工程师,也不是数据分析师。 会 大 术 技 在实施一个大数据应用时,常常由来自于统计、计算机和业务领域的一个团队 据 来完成。这些专业在大学里是分别设置的,独立培养、缺乏交叉。 数 在技能培训方面,更多的是让受训者掌握数据分析工具,却缺少数据科学家思 大 维。 国 中 18 20

25.培养现状 ) TC 、 学科体系还没建立 BD ( 会 数据科学概念和观点出现在科学数据处理领域、计算机科学领域、 大 统计学领域、商业智能应用等方面。 术 技 基本思想是:认为数据科学是“从领域数据中获取知识,为现有 的科学研究、管理决策提供服务”。 据 数 大 这些工作还不足以形成一个新的科学,因为它们的研究对象仍然 国 是现实中的事物,并且相应的科学问题也都是现有科学领域的问 中 题,数据科学学科体系尚未建立。 18 20

26.培养现状 ) TC 、 知识结构还没有形成统一框架 BD ( 会 数据科学的研究对象、目的和方法等都与计算机科学、信息科学 大 和知识科学有本质的不同,仅仅具备计算机技能并不能被称为一 术 个真正的数据科学家。 技 据 数据人才培养逐步发展为多领域联合培养,但缺乏系统性。在培 数 养过程中,领域专家重点是学习如何将领域业务需求转化为数据 大 问题交给数据分析人员,并不关注数据处理细节;而数据分析人 国 员注重对领域专家所给的数据进行处理,缺乏对领域知识的理解。 中 18 20

27. 相关书籍 20 18 中 国 大 数 据 技 …… 术 大 会 ( BD TC )

28.培养现状 ) 数据人才短缺是全球性的,越来越多的大学启动了数据人才培养计划。 TC BD ( 会 大 术 技 据 数 大 谁是数据科学家 国 中 1)从事商业数据分析的人 18 2)在数据上做科学研究的人 数据来源:教育部关于公布年度普通高 http://www.moe.gov.cn/jyb_xxgk/zdgk_sxml/sxml_gdjy/gdjy_bkzysz/b 20 等学校本科专业备案和审批结果的通知 kzysz_zysztz/ 3)研究数据的人

29.数据科学家培养 需要一个新学科体系 ) TC BD ( 会 大 数据科学 科学研究 数据方法 术 基础理论 技 据 数 大 国 中 数据界探索 数据技术及应用 18 20