Apache CarbonData
Apache CarbonData 2.0 线上发布会
2020/06/03 19:30 - 21:00

活动介绍

Apache CarbonData 是一个高性能 EB 级别原生 Hadoop 分析型数据仓库,提供面向对象存储上 EB 级数据的高性能明细查询能力、交互式查询能力,提供数据实时同步和更新能力,提供对主要 ETL 业务的支持和加速,以及支持标注、训练型分析的机器学习库。

CarbonData 作为目前为数不多的由中国公司贡献的 Apache 顶级项目,2017 年正式 “出道”,让我们简单回顾下 CarbonData 的历史:

  • CarbonData 1.4 成为 Apache 顶级项目(2017年初):多个国内国外大型客户试用,当时客户性能测试中,Spark on CarbonData 是 Spark on Parquet 的 1.5 ~ 2 倍。促进了 CarbonData 1.0 作为正式产品发布,并成为首个由中国本土公司贡献的 Apache 顶级项目。
  • CarbonData 1.5、1.6(2019年初):Hadoop 生态 ACID 能力,包括事务、容错、元数据管理等。
  • CarbonData 2.0 发布(当前):针对云环境的系统架构重新设计,数十个高级功能,包括存算分离优化、索引和物化视图能力、数据湖能力、数据实时同步和更新等等。

可以看出,CarbonData 自出道以来,一直秉承实践和探索的开源精神不断开拓进取,成为 Apache 软件基金会当中,华人力量崛起的重要力量。

下面我们来快速预览 CarbonData 2.0 的重要里程碑特性。

1、存算分离:
- 存储优化:面向对象存储的元数据管理优化,避免数据管理中移动对象、列举对象的高昂开销
- 计算生态:支持 Spark 2.4.5,支持 Flink、Hive、Alluxio、Presto、PyTorch、TensorFlow
2、明细查询和交互分析:
- 详单查询:二级索引、空间索引、Segment 级别 MinMax 索引,实现 PB 级别详单查询秒级响应
- 复杂查询:物化视图、时序预聚合、分桶索引,实现复杂查询秒级响应
- 数据湖索引管理:分布式索引缓存——IndexServer、并支持索引内存预加载
3、数据实时同步和更新:
- Insert、Update 和 Delete 性能增强,支持 Merge 语法
4、ETL支持和加速:
- 支持Hive读写CarbonData事务表,以及读写性能深度优化
5、AI:
- 支持标注、训练型分析的机器学习库

为了让大家进一步了解 Apache CarbonData 2.0,我们将举办 Apache CarbonData 2.0 发布线上直播。

直播信息

届时,不仅有 CarbonData 社区的嘉宾为大家解读 CarbonData 的最新特性和性能,我们还邀请了多位 CarbonData 的开发者和大家分享大数据应用经验和实践。

特邀嘉宾

  • 陈亮(华为;Apache CarbonData PMC & Committer)
  • 李昆(华为;Apache CarbonData PMC & Committer)
  • Kunal Kapoor(Apache CarbonData PMC & Committer)
  • Ravindra Pesala(新加坡开发银行,Apache CarbonData PMC & Committer)
  • Vimal Das(UBER,Apache CarbonData PMC & Committer)
  • Zhichao Zhang(Kyligence,Apache CarbonData PMC & Committer)
  • 曹鲁(上汽集团数据业务部大数据架构师,Apache CarbonData Committer)
  • 贺小桥(美团点评数据平台工程师,Apache CarbonData Committer)
  • 郝行军(Apache CarbonData 核心贡献者)
  • 林旅强 Richard Lin(开源社理事;本次发布会主持人)

会议日程

时间 日程 嘉宾
19:25-19:30 入场时间:直播间开始推流 主持人
19:30-19:40 开场(社区各个 PMC, Committer 介绍) 陈亮
19:40-20:10 CarbonData 2.0关键特性解读 李昆
20:10-20:40 CarbonData案例和测试结果分享 郝行军
20:40-21:00 Open Discussion 所有特邀嘉宾
“回车”发送消息