宫学庆, 教授, 华东师范大学计算机科学与软件工程学院, 分布式数据库 ... 等分析类算法,也包括分布式事务、分布式一致性、Map/Reduce等分布式算法; ... 消息处理, 基于分布式队列的消息发布和订阅系统已经被广泛用于处理不断 ...

注脚

1.数据科学技术群工作汇报 华东师范大学计算机科学与软件工程学院 宫学 庆 教授 2018 年 3 月 31 日

2.技术群核心成员 姓名 职称 单位 专业领域 宫学庆 教授 华东师范大学计算机科学与软件工程学院 分布式数据库 金澈清 教授 华东师范大学数据科学与工程学院 数据流、不确定数据管理 张蓉 教授 华东师范大学 计算机科学与软件工程学院 分布式数据处理、推荐系统 岳昆 教授 云南大学信息学院 海量数据分析与服务 彭敦陆 教授 上海理工大学光电信息与计算机工程学院 大数据管理技术、 知识管理 沙朝锋 副教授 复旦大学计算机科学技术学院 智能信息处理 崇志宏 副教授 东南大学计算机学院 大数据、人工智能、区块链 王斌 副教授 东北大学信息科学与工程学院 不确定数据管理 米传民 副教授 南京航空航天大学经济与管理学院 多元统计分析、电子商务 张召 副教授 华东师范大学计算机科学与软件工程学院 海量数据管理与分析 高明 副教授 华东师范大学数据科学与工程学院 数据挖掘、用户画像

3.主要工作 联络国内从事数据科学技术研究和教学的老师 宣传和介绍 Google 中国教育合作项目 整理数据科学技术知识点 设计数据科学技术教学培养路线图 协助 Google 教育合作部门推荐师资培训项目和课程建设项目 搜集整理数据科学技术相关教学资源 数据科学技术应当与应用需求和工程实践相结合!

4.

5.数据科学知识点 分类 知识点 描述 专业课程 基础课程 计算机专业基础课程,包括程序设计、数据结构、体系结构、操作系统、数据库原理等; 进阶课程 计算机专业研究生课程,包括算法、统计、机器学习、信息检索、数据挖掘等; 职业技能 通用技能 大数据从业者应当掌握的基本技能,是学习和工作的基础,涉及 Linux 系统,版本控制软件、集成开发环境、容器化技术和云计算平台等; 开发语言 主流的程序开发语言、脚本语言、统计分析语言和数据库语言,包括 Java 、 Python 、 R 、 SQL 等,每一个大数据从业者都应当熟练掌握 1 种以上开发语言; 算法专题 介绍大数据分析和处理相关的算法原理,包括深度学习、协同过滤、聚类分析和回归分析等分析类算法,也包括分布式事务、分布式一致性、 Map/Reduce 等分布式算法; 系统 平台 SQL 数据库 主要介绍传统基于关系模型并且采用 SQL 语言作为访问接口的数据库管理系统,也包括 Hive 等架构在分布式系统上的类 SQL 系统和基于中间件技术的分布式数据库服务; NoSQL 数据库 介绍新型的非关系数据库管理系统,这些系统所采用的数据模型包括键值对、图模型、文档模型和宽表模型等,主要通过 API 接口进行访问; 数据处理平台 介绍用于大规模数据处理的分布式基础架构平台,包括 Apache 基金会所开发的 Hadoop 和加州大学伯克利分校开源的 Spark 系统;

6.数据科学知识点 分类 知识点 描述 系统 平台 数据流处理 介绍基于数据流模型进行在线数据实时处理的系统,主要包括 Storm 和 Spark Streaming ; 缓存系统 在对大规模数据集进行分析和处理过程,采用缓存系统能够有效提高处理性能,目前主流的缓存系统有 GemFire 、 Redis 和 Cache ; 消息处理 基于分布式队列的消息发布和订阅系统已经被广泛用于处理不断产生的海量日志信息及交易信息,主流的开源消息处理系统有 Kafka 和 RabitMQ ; 数据分析 用于数据分析和挖掘的软件和工具包,主要有 Mahout 、 TensorFlow 、 MATLAB 和 Weka 等; 数据可视化 采用图表等方式对数据进行展示在大数据应用中占有重要地位,相关的软件工具和库包括 Tableau 、 Google Charts 、 Gephi 和 plotly 等; 数据集成 规划和研发大数据系统时通常需要对不同来源、不同格式和质量的数据进行集成,目前已经有很多用于数据采集、转换和集成的软件平台, Flume 和 OpenRefine 是其中具有代表性的; 资源调度 介绍用于集群资源( CPU 、内存、存储和网络等)管理和分配的系统工具,包括 YARN 和 Mesos ; 案例分析 领域应用 通过案例分析可以让学习者获取大数据技术应用的直观感受,有助于对相关技术的的理解和进一步学习。目前大数据技术已经被应用于众多领域,具有代表性的有知识图谱、用户画像、推荐系统、异常检测、社交网络、零售分析、计算广告和人工智能 ;

7.人才培养 角色 描述 大数据科学家 (Big Data Scientist) 专注于大数据领域特定科学问题的深入研究,具有整合不同来源、不同格式、不同质量数据集的能力,通过对数据集的融合和分析,提出具有创新性的解决方案。从业者可以拥有不同的知识背景,如经济、 物理、统计、计算机和应用数学等,通常拥有硕士或博士学位。 大数据分析师 (Big Data Analyst) 针对给定应用场景和系统中的数据进行分析,对具体问题提出可行的解决方案,并能够指导工程师进行开发和测试。从业者通常拥有 数学、统计、计算机、经济或金融的学士学位,并且熟悉主流的编程语言、开源系统和统计分析工具。 大数据架构师 (Big Data Architect) 针对特定的大数据问题和需求,设计相应的系统架构,是连接大数据科学家、大数据分析师和大数据工程师的桥梁, 负责大数据解决方案的全生命周期管理,包括需求分析、技术选型、架构设计、应用设计、开发和测试、部署和运维。从业者需要有丰富的应用架构经验,熟悉主流大数据处理平台的优缺点和适用场景。 大数据工程师 (Big Data Engineer) 根据大数据架构师的设计,在具体项目中负责数据的收集、预处理、算法实现、可视化及部署和运维。从业者应当熟练使用主流的软硬件平台、开发语言和测试工具,具有学习使用大数据相关开源系统的能力,通常拥有计算机相关专业的学士学位。

8.科学家与分析师

9.架构师与工程师

10.2018 年本科 师资培训 项目评审(已完成) 要求与流程 为期 三天,容量不少于 40 人 项目经费 不 超过人民币 80000 元(含税费和管理费) 2018 年 1 月 19 日前 提交 2018 年 1 月 31 日前 推荐 至 Google 教育合作部门 推荐标准 课程内容与主讲教师(有助于学员开拓视野,加深对数据科学的理解) 项目负责人背景和依托单位的保障能力 申报情况 共 收到 4 份申请书 第一推荐:贵州财经大学

11.2018 年第一批产学合作协同 育人 课程 项目 推荐 要求与流程 适用于 本科课堂教学和在线教育的课程 资源 申报截止日期是 2018 年 4 月 30 日 截止日期前发送到 wanzc@google.com 项目建设经费人民币 5 万 元 ( 1 年) 与项目挂钩 的 真实 课程 情况 推荐标准 与依托单位所开设正式课程的关系( 2/3 相符) 与数据科学技术知识点相符(优先支持系统平台和案例分析相关课程) 课程基础(课程资源、主讲人背景等) 课程规模(学时、选课人数等) 欢迎咨询和交流!

12.推荐 谷歌中国教育合作项目专家 组 成员 参见 《 谷歌中国教育合作项目专家 组施行办法 》 任期 2 年 参加 年度专家组会议,讨论和拟定合作项目下一步方向和工作重点; 审议 谷歌教育合作项目重大项目发布或活动方案草案,提供专家咨询建议; 受 邀参加谷歌教育合作项目申报书评审,给出评审结果和意见; 可选 参加谷歌中国教育合作部所组织的会议或活动,参与研讨、分享和交流 。 推荐标准 从事数据科学相关的科研与教学工作; 积极参与数据科学技术群的活动与交流;

13.http://gur.zucc.edu.cn:3000

14.数据科学技术课程资源建设 内容 教学大纲(目标、教材、教学内容、课时安排、考评标准) 教学课件( PPT 、视频等) 习题和实验(练习、软件、课程项目、试卷) 在 Google 中国教育合作 项目校园网平台上发布 教学资源协作 分享与交流 共同开发 协助整理和 规范化

15.交流与合作 申报 《 2018 年第一批产学合作协同育人 课程 项目 》 推荐 谷歌中国教育合作项目专家组 成员 共同建设课程资源 xqgong@sei.ecnu.edu.cn 1104777102@qq.com

user picture
  • Null
  • null==undefined(JobsFE)

相关Slides

  • 大规模实践基于Docker的MySQL私有云平台。集成高可用、快速部署、自动化备份、性能监控、故障分析、过载保护、扩容缩容等多项自动化运维功能。数据库高可用是不容忽视的,在Docker容器分配时如何保障主从不在同一宿主机上呢?我们通过自研Docker容器调度平台,自定义Docker容器的分配算法。实现了MySQL的高密度、隔离化、高可用化部署。同时结合我们自研的数据库中间件,支持了分片集群及无感知的高可用切换功能。截止目前平台支撑了目前总量90%以上的MySQL服务(实际数量超过2000个),资源利用率提升30倍,数据库交付能力提升70倍。并且经受住了十一黄金周、春节票务业务高峰期的考验。未来将致力于数据库自动化向智能化的推进。

  • 在云时代的今天,企业数据库面临着复杂的选择,数据库异构迁移往往达不到预期效果,樊文凯想大家分享了ADAM数据库和应⽤用迁移(Advanced Database & ApplicationMigration, 以下简称ADAM),ADAM是阿里云结合阿里巴巴多年年内部业务系统数据库和应⽤用异构迁移的经验(去IOE),⾃自主研发的、迁移ORACLE数据库和应⽤用⾄至阿⾥里里云相关云产品的专业产品,分享了ADAMA的结构、高性能、数据库割接、智能分析、所用的生态工具等,典型的数据库中出现的痛点。

  • 主要介绍阿里云MongoDB服务使用上的一些最佳实践,以及对MongoDB的部署、参数调优

  • Lindorm 是新一代面向在线海量数据处理的分布式数据库,阿里的技术专家通过分享这些多种场景下的数据存储技术实践,帮助企业更好地理解各种数据存储技术的特点,针对自己的业务发展对数据存储技术进行选择和组合。