Apache CarbonData成长故事

下载 2

Apache CarbonData

发布于

4881

人观看

#信息技术

2017年中国开源年会，陈亮介绍Apache CarbonData项目历程，在准备开源到进入Apache项目孵化以及答辩毕业的完整过程。

展开查看详情

1 .Apache CarbonData成长故事 China Open Source Conference 2017 演讲者：陈亮

2 . 目录 ——CONTENTS—— 01 02 03 项目背景开源准备从Apache孵化到毕业的历程

3 .项目背景华为开启CarbonData项目的背景是什么？这个项目的价值是什么？

4 .Big Data Challenges in Huawei(1) Network Consumer Enterprise • 54B records per day • 100 thousands of sensors • 100 GB to TB per day • 750TB per month • >2 million events per • Data across different • Complex correlated data second domains • Time series, geospatial data

5 . Big Data Challenges in Huawei(2) Report & Dashboard OLAP & Ad-hoc Batch processing Machine learning Realtime Decision Big Table Small table data Ex. CDR, transaction, Small table Web log,… Unstructured data

6 .Challenge Summary - Data • Data Size 数据规模 • Single Table >10 B 单表大于100亿行 • Fast growing 快速增长 • Nested data structure for complex object 数据结构复杂 • Multi-dimensional 数据维度多 • Every record > 100 dimensions 分析的维度超过100 • Add new dimension occasionally 维度不断增长 • Billion level high cardinality 不同值范围在亿级别

7 .当前大数据开源技术：无法满足一份数据同时支撑多种大数据场景的需求 1. NoSQL Database • 只支持单列key value查询 <5ms • 不支持标准SQL 2. MPP relational Database •Shared-nothing架构 •不支持大集群 <100节点，没有容错 3.Cube Data •预聚合，查询快 •但数据膨胀大，支持维度少，不支持查明细数据 4. Search Engine •通过索引快速找到数据 •数据膨胀大2-4倍，不支持SQL 5. SQL on Hadoop •聚焦计算引擎的分布式扫描 •存储效率不高互联网场景 ——>针对某些场景的大数据方案

8 .如何通过一份数据高效支持多种业务场景诉求，减少数据孤岛和冗余？快：更快：高效数据压缩：并发数据导入：构建多维度索引基于快速智能扫描字典编码 Spark并行任务 •CarbonData名字由来。 •经过几年的技术开发，CarbonData性能提升X-XX倍。

9 .开源准备公司流程+开源准备工作

10 .开源准备checklist： • 法务品牌审视 • 开源基金会分析 • 公司汇报 • 组建开源发展团队(OSDT)

11 .选基金会：Apache基金会和Linux基金会的对比基金会运作税务结构资助形式雇员参与模式运作范围 Apache 501(c)(3) 捐赠很少个人项目 Linux 501(c)(6) 会员较多企业项目+会议+培训+ 咨询项目运作项目范围项目允许相似社区导向公司话项目决定权个数项目语权 Apache 大数据、数 300 是纯技术，真零 1.Board季度review项目据库、Web、 + 正的开源社运作情况，为项目提供云服务、AI 区->项目多， INFRA、法务等保障生态好 2.项目自主管理 diversity(项目方向+核心人员) Linux 云计算 60+ 否技术+商业- 代表公董事会+项目 (INFRA)、 >组织化运司利益 OS、网络作

12 .CarbonData为什么要开源？ • 将CarbonData打造为标准和通用数据格式/存储 • 数据无Lock-in安全问题，客户用得放心 • 构建CarbonData生态 • 提升开源影响力 • 提升开发效率 … 做大蛋糕，比做大份额更重要！

13 .从Apache孵化到毕业的历程

14 .Apache项目生态构建关键路径分析成熟度生态发展期 1.清晰的发展路关键步骤三标孵化期毕业 2.完善 ecosystem 答辩 1.例行向Apache 汇报项目成熟度 (版本数、CI程度、 commits提交数) 2.活跃度(30+贡献关键步骤二者) 社区准备期接纳 1.选择导师关键步骤一 2.开源平台 Github搭建法务 3.孵化建议书品牌

15 .“Apache Way”是ASF的精髓

16 .CarbonData：实现一份数据同时满足多种业务需求，与大数据生态无缝集成 Multi-dimensional OLAP Query CarbonData: Unified Storage Full Scan Query Small Scan Query CarbonData官网：carbondata.apache.org Github : https://github.com/apache/carbondata

17 .感谢您的聆听演讲者：陈亮微信：chenliang2007 Email： chenliang613@apache.org

16点赞

5收藏

2下载