申请试用
HOT
登录
注册
 
Alluxio上海Meetup

Alluxio上海Meetup

时间
2018/10/27 13:00 - 17:00
人数
100
地点
上海张江高科博霞路66号浦东软件园Q座
查看地图
3490人浏览
会议详情

背景

    未来是数据的时代,数据的高效管理、存储以及访问的抽象无疑是这个时代的基石。开源分布式虚拟数据系统Alluxio致力于为大数据、机器学习、以及人工智能提供简单高效的数据抽象、便捷的数据共享以及高速的I/O,同时让应用与数据的持久化隔离并提供丰富的存储系统选择。经过数年的发展,Alluxio由最初加州大学Berkeley分校AMPLab里仅有数名博士生以及研究人员参与的研究项目原型,发展到超过800名代码贡献者(Alluxio 1.8发布时数据),并部署在包括腾讯、百度、京东和Two-Sigma、巴克莱银行等上百家中外行业领导者的生产环境中,成为数据平台和数据基础架构的一个重要组成部分。

议程安排

 13:00 - 13:30 ········· 活动签到
 13:30 - 13:40 ········· 活动开场白
 13:40 - 14:20 ········· 议题一:展望Alluxio 2.0
 14:20 - 15:00 ········· 议题二:Alluxio 在携程大数据平台中的实践
 15:00 - 15:30 ········· 茶歇 & 自由交流
 15:30 - 16:10 ········· 议题三:Alluxio+AVA:让深度训练数据上云
 16:10 - 16:50 ········· 议题四:用Alluxio加速云上大数据分析以及持久化内存带来的新机会

议题及嘉宾介绍

议题一:展望Alluxio 2.0

范斌,Alluxio公司的创始成员, Alluxio开源项目的PMC成员. 加入Alluxio项目之前, 范斌就职于Google Mountain View。范斌博士毕业于卡内基梅隆大学(Carnegie Mellon University)计算机系, 博士期间从事分布式系统算法和实现, 是CuckooFilter以及高性能的多线程KV库libcuckoo的作者. 有多项专利并在SIGCOMM, SOSP, NSDI等顶级学术会议上发表论文。

内容简介:范斌博士将分享Alluxio 2.0系统着眼的功能、面临的挑战,介绍开发者社区对于对RPC系统升级,完整支持异步写,数据副本的管理,以及自建的HA模式(无需依赖Zookeeper或者HDFS)等重要功能的目标、设计和进度。同时,作为Alluxio开源项目的核心开发者,范斌还将分享在过去数年中Alluxio团队总结的一些分布式系统开发的经验教训及最佳工程实践。

议题二:Alluxio 在携程大数据平台中的实践

郭建华,携程大数据平台研发工程师,2016年硕士毕业于上海大学后,一直在携程的大数据平台部门从事离线平台的维护与研发工作,对存储框架HDFS、Alluxio,计算框架Spark SQL和Hive有一定的了解。

内容简介:离线和实时在携程大数据中都占据重要地位,为了解决资源竞争带来的问题,我们将部分实时作业单独建立集群,同时带来了新的问题,跨集群读写数据.同时,部分作业需要准时实时的离线查询,这给当前的框架带来挑战.本次分享介绍了如何引入Alluxio来解决这些问题进行了探讨,并分享碰到的一些问题和踩过的坑.

议题三:Alluxio+AVA:让深度训练数据上云

李朝光,七牛云AI技术总监,资深系统架构师。具有10多年分布式存储系统研发和设计经验,曾负责研发IBM高端存储DS8000第一代SSD分层存储系统, 后担任华为全闪存储Dorado Cache总架构师。目前担任七牛云深度训练平台AVA负责人,通过与Alluxio深度合作,使七牛深度学习完全基于云端数据训练, 成功解决深度训练数据规模庞大、性能要求高和扩展难等问题。

内容简介:七牛云 Atlab 实验室专注于机器视觉方向的深度学习研究。我们团队针对深度学习训练打造了高效的训练平台 AVA,深度整合了存储和计算资源。为了提高算法工程师训练模型的效率,我们使用 Alluxio 加速训练任务读取海量视频、图片等样本文件,并针对我们的应用场景,从元数据管理和读写分离等方向入手对 Alluxio 进行改造,实现了文件读写性能 50% 以上的提升,同时显著降低了存储系统的成本和容量风险。

议题四:用Alluxio加速云上大数据分析以及持久化内存带来的新机会

周渊,Intel开源技术中心资深工程师,目前专注于大数据存储软件的开发与性能优化,此外,他在关系数据库,虚拟化,云计算基础架构等系统软件的研发与性能优化也积累了多年的技术经验。

内容简介:基于云的大数据分析因其低成本和灵活部署等特性已经变得越来越火,但其性能还是跟本地部署的集群存在差距。本次分享会介绍不同的负载(Terasort, TPC-DS, Machine Learning)在S3和在本地部署中的性能差异和分析,以及使用Alluxio时对这些负载的加速效果。持久化内存这种介质的出现,在存储界打开了了一个新世界,本次分享也会探讨Alluxio在使用持久化内存时的新机会。

活动主办


活动
文档
专题
博客
确认
3秒后跳转登录页面
去登陆