传统的云原生(Cloud Native)大数据处理,,从数据的一致性到元数据的管理,面临着各种性能和编程上挑战。HDFS虽然有着不错的性能,和扩展性,但是在使用成本和运维成本上也面临诸多顾虑。JuiceFS是下一代的基于云原生的分布式文件系统,利用OSS/S3/HDFS等公有云存储,在元数据管理上做到弹性管理,极大提升了云原生应用的数据处理效率,支持Spark/Impala/TensorFlow/Hive/HBase等数据处理引擎。

献良发布于2018/11/19 12:57

注脚

1.JuiceFS Juicedata 2018.11.18

2. DPark Apache Spark MooseFS HDFS JuiceFS Beansdb 2008 2018 Douban Facebook Databricks Juicedata

3.• Cloud Native • •

4.• • S3, OSS • HDFS

5. (S3) • API • Restful • •

6. (S3) • • • FileNotFoundException • • • : FileAlreadyExistsException •

7. (EFS) S3 EFS 300 225 150 75 0 (/TB/

8. HDFS • • •

9. HDFS • • • CPU • •

10.• • • • • •

11. HDFS ZooKeeper DataNode1 JN1 DataNode2 JN2 NameNode JN3 DataNode3 NN Standby HDFS Client (JVM)

12. HDFS ZooKeeper Data DataNode1 Manager JN1 DataNode2 JN2 Meta server JN3 DataNode3 NN Standby HDFS Client (JVM)

13. HDFS ZooKeeper DN DataNode1 Manager JN1 DataNode2 JN2 Meta server JN3 DataNode3 NN Standby HDFS Client (JVM)

14. JuiceFS S3 GCS OSS Ceph Meta Service meta data Juicedata kernel/FUSE

15. File chunk 64MB 64 bits id object 4MB /chunks/1/1024/1024123_0_4194304 /foo /chunks/1/1024/1024123_1_4194304 /chunks/1/1024/1024123_2_256

16. Raft Group Follower Follower Logger changelog Logger Leader Logger Logger SSL

17. JuiceFS • • Raft • • key

18. JuiceFS • • • • • • • •

19. JuiceFS 300 225 150 75 0 S3 EFS HDFS JuiceFS

20. JuiceFS • • • •

21.S3 OSS

22. <1s < 30s S3 OSS

23. JuiceFS • • • • • •

24. Flink Spark TensorFlow Hive JuiceFS MPI HBase Impala

25. Thanks Q&A davies@juicedata.io

user picture
  • 献良
  • 非著名互联网公司工程师

相关Slides

  • 讲解了Facebook在spark shuffle方面的优化,相关论文为 EuroSys ’18: Riffle: Optimized Shuffle Service for Large-Scale Data Analytics

  • Hive作为数据仓库的核心,其元数据管理已经成为大数据领域事实上的标准,各种大数据处理引擎都尝试对其兼容,本文描述社区如何讲Hive服务以及Hive MetaStore服务独立处理,并支持各种权限验证功能。

  • Spark 流式有两套系统:Spark Streaming 和 Structured Streaming。那么这两套系统的区别在哪里呢?以及为什么 Spark 有了 Spark Streaming 还有做 Structured Streaming 呢?我们应该如何去选择呢?

  • MLSQL的文档自助系统 更多信息访问官网: http://www.mlsql.tech