Data Infra Meetup

2019年06月02日 13:30 - 17:00

徐汇区田林路200号A8座

可容纳200人
免费
报名码

背景

数据创造价值!数据深刻改变了许多传统行业的盈利和营销模式,其背后基础架构技术的演进,也深刻决定了我们的处理数据的效率与洞察数据本质的能力,合理利用现有开源的技术方案,会极大提高应用开发,部署与运行效率。
由PingCAP发起组织的Data Infra Meetup,邀请了来自Alluxio,Zeppelin,TiDB社区以及Intel的资深工程师同行,一起来探讨各自社区中开源技术发展历程,和近期规划,以及在大数据应用中,如何通过量化模拟,估算的手段,预测大数据集群性能和资源利用率,更好的制订软件调优和硬件采购决策等话题。

议程安排

13:00 - 13:30 ········· 签到
13:30 - 14:15 ········· 《Alluxio的新特性介绍与缓存性能优化》顾荣 南京大学PASA实验室助理研究员 & Alluxio PMC
14:15 - 15:00 ········· 《基于仿真技术规划部署和调优大数据集群》刘华 Intel 系统技术与优化部门架构师
15:00 - 15:30 ········· 茶歇
15:30 - 16:15 ········· 《TiDB 的 HTAP 之路 - 过去,现在和将来》马晓宇 PingCAP OLAP产品负责人
16:15 - 17:00 ········· 《Zeppelin 在机器学习领域的最新特性和规划》刘勋 Zeppelin Committer & Hadoop Submarine Team Member

讲师风采

讲师

顾荣,博士毕业于南京大学计算机系,南大PASA大数据实验室助理研究员,研究方向大数据处理系统,现担任江苏省计算机学会大数据专家委员会秘书长、中国计算机学会系统软件专委会委员,Alluxio项目PMC Member & Maintainer。顾荣领导团队完成了Alluxio很多功能稳定和性能增强方面的工作,包括性能测试框架Alluxio-Perf、Alluxio C++语言接口、Alluxio缓存策略优化、Alluxio与Hadoop生态系统多个组件的整合、开发社区中文文档等。在与Spark结合方面,顾荣设计实现了Spark 1.x版本中发布的支持RDD 存储到Alluxio的功能。顾荣已在TPDS、JPDC、ICDE、IPDPS等在内的前沿国际期刊会议发表论文20余篇,并获授权国家发明专利4项,相关成果应用于英特尔、百度、苏宁、字节跳动等公司。顾荣还带队获得Sortbenchmark全球竞赛CloudSort第一名、NIPS AutoML全球挑战赛第三名。此外,顾荣曾在Microsoft Research、Intel、Baidu、星环科技(Transwarp)从事过大数据系统相关的研发工作,多次受邀在业界知名技术大会(例如Strata Hadoop World, 云栖大会, DTCC,Spark/Hadoop Summit in China)上进行技术演讲。

刘华,来自于Intel 系统技术与优化部门,负责Intel 系统建模和模拟解决方案在亚太区的业务推广。目前致力向客户提供基于仿真技术的Intel®CoFluent™大数据技术,帮助客户规划部署和调优大数据集群。

马晓宇,PingCAP 分析型产品负责人。曾就职于Quantcast、网易,负责构建和管理大数据平台。关注分布式系统,SQL 引擎开发等领域。

刘勋,Zeppelin Committer;Hadoop Submarine Team Member;目前就职网易杭研数据科学中心,负责机器学习平台的开发和建设。关注 Hadoop 、大数据平台和机器学习等领域。

议题介绍

议题一:Alluxio的新特性介绍与缓存性能优化

议题简介:分布式文件系统处于大数据系统中基础地位,在行业大数据应用中发挥着重要作用。Alluxio(原名Tachyon)是世界上首个以内存为中心的层次化分布式文件系统。它为上层计算框架和底层存储系统构建了桥梁,应用可以通过Alluxio提供的统一数据访问方式访问底层任意存储系统中的数据。在本报告中,我将首先介绍Alluxio系统的基本原理,以及Alluxio 2.0的新特性;然后,我将介绍我们在Alluxio缓存优化方面的一些工作,包括通用的分层式大数据缓存调度框架,缓存替换策略及其自适应调度算法,以及内存读性能优化等。

议题二:基于仿真技术规划部署和调优大数据集群

议题简介:大数据集群设计中常常会面临这些挑战:预测系统可伸缩性、调整系统规模、确定最大硬件利用率、最小化成本和预测系统性能。Intel®CoFluent™ Technology for Big Data是端到端的大数据集群仿真器,利用软硬件协同仿真的方法应对这些常见设计挑战。这一技术既能够仿真硬件资源的性能和连接,也能够模拟软件栈组件的操作时间,并且将软件组件和操作映射到硬件,能够在购买和部署设备之前分析系统的行为,并预测软件堆栈和硬件活动的网络与性能需求。使用Intel® CoFluent™ Technology for Big Data,能够帮助客户根据业务需求特性规划大数据集群,优化集群性能,节省IT成本。

议题三:TiDB 的 HTAP 之路 - 过去,现在和将来

议题简介:TiDB 从一开始就在向 HTAP 数据库的方向不断前进着,期望能弥合交易和分析两者设计中的鸿沟,从一开始的协处理器架构,到 TiSpark 插件再到今天的行列混合架构,TiDB 正在不断补完 HTAP 方向的各个短板。本次演讲将和大家探讨 HTAP 的价值以及困境,TiDB 在 HTAP 方向的架构演进历程,以及我们对将来的设计思考。

议题四:Zeppelin 在机器学习领域的最新特性和规划

议题简介:Zeppelin 是一个数据分析的交互式开发平台,在世界范围内有着众多的用户,在 Zeppelin 中通过 Spark、Hive、Flink 进行大数据分析,使用 Python 和 R 进行传统算法的开发。
在机器学习和深度学习日益盛行的今天,Zeppelin 通过和 Hadoop Submarine 、KubeFlow 等社区进行深入的合作开发,已经可以在 Zeppelin 中支持 Tensorflow、PyTorch 等深度学习算法的开发和调试。
Zeppelin 社区正在开发涵盖了大数据分析和机器学习、深度学习算法开发、工作流编排、作业调度的大规模升级平台。让你可以在 Zeppelin 中完成机器学习开发过程中的数据加工处理、算法开发和调试、作业流编排、作业调度(支持 YANR 和 K8S )、算法模型 Serving Docker 容器化服务。

本次演讲将和大家探讨 Zeppelin 社区在机器学习方面的开发计划和最新进展之外,还将介绍 Zeppelin 今年将要发布的最新版本中的全新的交互式终端解释器、Zeppelin On Yarn、 Zeppelin On K8s、Zeppelin 分布式等重大特性。

地图详情
关注公众号
公众号
/ 相关文档 /