Apache CarbonData成长故事

2017年中国开源年会,陈亮介绍Apache CarbonData项目历程,在准备开源到进入Apache项目孵化以及答辩毕业的完整过程。
展开查看详情

1.Apache CarbonData成长故事 China Open Source Conference 2017 演讲者: 陈亮

2. 目录 ——CONTENTS—— 01 02 03 项目背景 开源准备 从Apache孵化到毕业的历程

3.项目背景 华为开启CarbonData项目的背景是什么? 这 个 项 目 的 价 值 是 什 么 ?

4.Big Data Challenges in Huawei(1) Network Consumer Enterprise • 54B records per day • 100 thousands of sensors • 100 GB to TB per day • 750TB per month • >2 million events per • Data across different • Complex correlated data second domains • Time series, geospatial data

5. Big Data Challenges in Huawei(2) Report & Dashboard OLAP & Ad-hoc Batch processing Machine learning Realtime Decision Big Table Small table data Ex. CDR, transaction, Small table Web log,… Unstructured data

6.Challenge Summary - Data • Data Size 数据规模 • Single Table >10 B 单表大于100亿行 • Fast growing 快速增长 • Nested data structure for complex object 数据结构复杂 • Multi-dimensional 数据维度多 • Every record > 100 dimensions 分析的维度超过100 • Add new dimension occasionally 维度不断增长 • Billion level high cardinality 不同值范围在亿级别

7.当前大数据开源技术:无法满足一份数据同时支撑多种大数据场景的需求 1. NoSQL Database • 只支持单列key value查询 <5ms • 不支持标准SQL 2. MPP relational Database •Shared-nothing架构 •不支持大集群 <100节点,没有容错 3.Cube Data •预聚合,查询快 •但数据膨胀大,支持维度少,不支持查明细数据 4. Search Engine •通过索引快速找到数据 •数据膨胀大2-4倍,不支持SQL 5. SQL on Hadoop •聚焦计算引擎的分布式扫描 •存储效率不高 互联网场景 ——>针对某些场景的大数据方案

8.如何通过一份数据高效支持多种业务场景诉求,减少数据孤岛和冗余? 快: 更快: 高效数据压缩: 并发数据导入: 构建多维度索引 基于快速智能扫描 字典编码 Spark并行任务 •CarbonData名字由来。 •经过几年的技术开发,CarbonData性能提升X-XX倍。

9.开源准备 公司流程+开源准备工作

10.开源准备checklist: • 法务品牌审视 • 开源基金会分析 • 公司汇报 • 组建开源发展团队(OSDT)

11.选基金会:Apache基金会和Linux基金会的对比 基金会运作 税务结构 资助形式 雇员 参与模式 运作范围 Apache 501(c)(3) 捐赠 很少 个人 项目 Linux 501(c)(6) 会员 较多 企业 项目+会议+培训+ 咨询 项目运作 项目范围 项目 允许相似 社区导向 公司话 项目决定权 个数 项目 语权 Apache 大数据、数 300 是 纯技术,真 零 1.Board季度review项目 据库、Web、 + 正的开源社 运作情况,为项目提供 云服务、AI 区->项目多, INFRA、法务等保障 生态好 2.项目自主管理 diversity(项目方向+核心 人员) Linux 云计算 60+ 否 技术+商业- 代表公 董事会+项目 (INFRA)、 >组织化运 司利益 OS、网络 作

12.CarbonData为什么要开源? • 将CarbonData打造为标准和通用数据格式/存储 • 数据无Lock-in安全问题,客户用得放心 • 构建CarbonData生态 • 提升开源影响力 • 提升开发效率 … 做大蛋糕,比做大份额更重要!

13.从Apache孵化到毕业的历程

14.Apache项目生态构建关键路径分析 成熟度 生态发展期 1.清晰的发展路 关键步骤三 标 孵化期 毕业 2.完善 ecosystem 答辩 1.例行向Apache 汇报项目成熟度 (版本数、CI程度、 commits提交数) 2.活跃度(30+贡献 关键步骤二 者) 社区 准备期 接纳 1.选择导师 关键步骤一 2.开源平台 Github搭建 法务 3.孵化建议书 品牌

15.“Apache Way”是ASF的精髓

16.CarbonData:实现一份数据同时满足多种业务需求,与大数据生态无缝 集成 Multi-dimensional OLAP Query CarbonData: Unified Storage Full Scan Query Small Scan Query CarbonData官网:carbondata.apache.org Github : https://github.com/apache/carbondata

17.感谢您的聆听 演讲者:陈亮 微 信:chenliang2007 Email: chenliang613@apache.org

CarbonData是一种高性能大数据融合存储方案,以一份数据同时支持多种应用场景,通过多级索引、字典编码、预聚合、动态Partition等特性提升了IO扫描和计算性能,已在30+企业生产环境上部署应用,其中最大的单一集群数据规模达到十万亿。