NASAC2019-Alluxio数据编排架构演进和案例介绍

NASAC 2019开源大数据系统软件社区资深管理员论坛
Alluxio数据编排架构演进和案例介绍报告
https://www.slidestalk.com/m/64

展开查看详情

1.Alluxio 数据存储编排架构演进与案例介绍 毛宝龙| Alluxio PMC maobaolong@139.com

2.自我介绍 毛宝龙(神龙) 从事数据传输、数据迁移、数据备份、数据重删、分布式 文件存储等数据相关工作 热爱开源,并积极投入开源社区。 • Alluxio PMC & contributor • Hadoop contributor

3. 快速发展的社区 [əˈluksio] All luxury IO 源于Alluxio创始人李浩源PhD 项目“Tachyon” 1080 750 Open sourced in under Apache2.0 210 3 70 1 Contributors v0.1 v0.2 v0.6 v1.0 v1.8 v2.1 Dec ‘12 Apr ‘13 Mar ‘15 Feb ‘16 Jul ‘18 Nov ‘19 3

4.多元化的社区 华人、美国人、爱尔兰、印度人、韩国人、巴西人、意大利人、德国人、俄罗斯人,等等 Join Slack channel Alluxio 主页 alluxio.io/slack alluxio.io 范斌教你如何贡献开源社区 https://www.youtube.com/watch?v=yBCAXlVfQ5g 4

5.Alluxio已经应用到数百家公司 Financial Services Retail & Entertainment Data & Analytics Services Technology Consumer Telco & Media Travel & Transportation https://www.alluxio.io/powered-by-alluxio/ 5

6.

7.Alluxio——应运而生

8.大数据生态 - Beta 大数据生态1.0 COMPUTE COMPUTE STORAGE STORAGE

9. 大数据生态1.0 – 挑战 计算 复杂性 No Api Translate No locality 低性能 No Cache 昂贵 No Cache 存储

10. 存储和计算分离 Java File API HDFS Interface S3 Interface POSIX Interface REST API Data Orchestration VDFS HDFS Driver Swift Driver S3 Driver NFS Driver

11.存储和计算分离

12.Alluxio和单机存储比较

13.智能多层缓存 分级缓存 Read & Write Buffering Transparent to App RAM SSD HDD Hot Warm Cold Policies for pinning, promotion/demotion, TTL

14.通过主流的api到api转换实现数据访问性 没有Alluxio的时候,是这样的

15.通过主流的api到api转换实现数据访问性 有了Alluxio之后,是这样的

16.Alluxio对Application的Api 使用行业标准的HDFS 兼容 API

17.通过统一命名空间 在同一的Alluxio 里 编排多个底层存储 - 挂载一个存储系统就像挂载一个设备文件一样 alluxio fs mount /boyFriend cos://data-bucket/ alluxio fs mount /girlFriend oss://data-bucket/

18.新架构——Alluxio2.X

19.Alluxio 架构——Master/Worker WAN Alluxio Alluxio Worker Client RAM / SSD / HDD Application Under Store 1 Alluxio Alluxio Client Worker Application RAM / SSD / HDD Under Store 2 Alluxio Zookeeper Master / RAFT Standby Master

20.Alluxio 架构——RAFT Alluxio Standby Alluxio Master Alluxio Master Master RAFT Distributed Distributed Alluxio Standby Alluxio Standby Storage Quorum Master Master (ie. HDFS) (Zookeeper) 没有外部依赖 http://thesecretlivesofdata.com/raft/ Available in 2.0.0

21.Alluxio 架构——GRPC Alluxio Client Alluxio Worker Alluxio Client Alluxio Worker Alluxio Master Alluxio Worker Alluxio Master Alluxio Worker Thrift (Metadata) gRPC (Metadata + IO) Netty (IO) Available in 2.0.0

22.Alluxio 架构——管理10亿元数据 Alluxio Master Inode ID Metadata (Binary) 12392 010101101101 On Heap ● Inode Cache 12393 110110110100 ● Mount Table RocksDB (Embedded) ● Locks ● Inode Table … … ● Edge Table ● Block Table ● Block to Worker Table Edge (ID, name) Inode ID ● Worker to Block Table 12392,foo 12393 Local Disk … … Available in 2.0.0

23.新特性——Alluxio 2.x

24. Available in 2.0.0 副本异步写 以网路速度写数据 Application Alluxio Alluxio Worker Worker Alluxio Client RAM / SSD / HDD RAM / SSD / HDD Under Store 既快又靠谱, 数据后台落UFS 24

25. Available in 2.0.0 策略驱动的数据管理 Alluxio Policy Engine Alluxio Application Master Example Policy Move files older than 90 应用访问相同的路径,不关系数据存 days from HDFS to S3 哪 逻辑文件系统和 物理底层存储系统解耦 25

26.结构化数据管理: 基于 Hive Connector 实现的 Presto Alluxio Connector • 新的 Alluxio Catalog 服务 • 提供结构化数据的抽象 • 连接一个 Hive MetaStore 就像 挂载一个文件系统 • 理解并提供文件或对象的结构 • 新的 Alluxio 数据转换服务 • 转换 csv  parquet • 合并 many files  fewer files csv parquet Now available as Developer Preview

27.新特性——结构化数据管理 Presto Alluxio Hive Connector Alluxio Alluxio Alluxio Caching Catalog Transformation Service Service Service Hive Metastore Storage Now available as Developer Preview

28.Alluxio Catalog Service Alluxio Catalog Service 功能 管理结构化数据的 metadata Hive Under 抽象数据库的catalogs为 Database Under Database (UDB) 收益 感知结构,可以做很多优化 Hive Metastore 简化部署 28

29.如何使用Alluxio Catalog CLI alluxio table attachdb <udb type> <udb uri> <udb db name> 用一个 UDB database 关联Alluxio database alluxio table detachdb <db name> 删除与udb的关联 Alluxio table ls [<db name> [<table name>]] 显示 the catalog 中的信息 alluxio table sync <db name> 同步 Alluxio catalog 和UDB metadata 29