HBase多模数据库的机遇与挑战_V4

下载 1

中国HBase技术社区

发布于

2223

人观看

#信息技术

HBase多模数据库的机遇与挑战_V4

展开查看详情

1 .开发者专场 HBase多模的机遇与挑战 Opportunities and challenges of HBase Multi-Model DB 阿里云数据库团队 HBase多模式与分析负责人、高级技术专家封神

2 .• 业务挑战带来的架构演进 • ApsaraDB For HBase多模式数据库 • ApsaraDB For HBase核心场景

3 . 多种数据格式 K V Key Value Time Series Doucument Geospatial Relational Graph

4 .多种数据格式的发展

5 . 数据库的发展趋势 Multi Model HBase 分布式SQL Phoenix 第四代分库分表第三代多模式解决多种数据模型问题 MySQL NewSQL 第二代解决自适应分区第一代分库分表解决数据量的问题丰富模型单机关系型解决基本存取的问题能、加智更

6 . 较多的数据 – 检索、查询、分析复杂性计算复杂性 Cube（满足读延迟） Spark 延迟<读、灵活性写> 延迟<读、灵活性写> 分布式 HBase

7 . 较多的数据 – 检索、查询、分析 ECS Spark 计算力 MySQL 检索 NAS HBase Solr/ES 存储事务存储量大分布式复杂成本高数据量增大

8 .ApsaraDB For HBase架构及改进

9 . 什么是 ApsaraDB For HBase Beyond Apache HBase Multi-Model Mixed Workloads KV Table 安全 SQL Spark 延迟 Graph On MTTR Geo xxx 性能 TimeSeries FullText-index

10 . 什么是 Apache HBase 毫秒级读写延迟亿级 QPS 10：1 压缩比百万列 18年 2.0发布稀疏表万亿行数据驱动业务单表存储 PB级别 15年 1.0发布单表存储为互联网、物联网而生 08年 Apache顶级项目 06年发起

11 . 什么是 Apache For HBase Hadoop Database，是一个基于Google LSM BigTable论文设计的高可靠性、高性能、 Tree 可伸缩的分布式存储系统。松散表结构(Schema free) 自动存储计算分区分离原生海量数据分布式存储随机查询、范围查询高吞吐，低延迟 Hadoop 生态在线分布式数据库多版本，增量导入，多维删除

12 . 核心使用场景阿里巴巴集团部署1.2W台 Lo g 公有云超过500+集群

13 . HBase生态组件 K V HBase API OpenTSDB Key Value Time Series Phoenix HGraphDB Relational Graph HBase API GeoMesa Doucument Geospatial

14 . 多模式的两个流派 Neo4j InfluxDB CockroachDB PG Multi - Model Multi - Model KV/Index KV/Index Remote Storage

15 . Cloud-Native好处 Cloud Native New Hardware Flexibility Cost Savings (TCO) End up paying for RDMA Fast Add/Remove features Flash Resource Flexibility GPU Insight self-driven Non-volatile memory Fix bugs in time Reduce human Self-driven ……

16 . 多模式的两个流派 Neo4j InfluxDB CockroachDB PG Multi - Model Multi - Model u d l o KV/Index c KV/Index Remote Storage

17 . ApsaraDB HBase Platform – Cloud Native SQL Graph Time Series Geospatial Phoenix HGraphDB OpenTSDB GeoMesa HBase Solr/ES (KV、Tabular 、Doucument) (Full Text Index) Spark Remote Read/Write use RDMA and 25G network Cold data on HDD Hot data on SSD and use EC like OSS

18 . ApsaraDB For HBase Platform优势 Item ApsaraDB For HBase (Aliyun Product) Apache HBase (Software) High availability 99.9% ~ 99.99% N/A Basic Data reliability 99.999999999% N/A Multi-master clustering Multi-master clustering，Multi-AZ/Regon NO Online Ability GC FGC NO，YGC 5ms GC 20s~100s，YGC 100ms+ Storage Cost Cut by 50%+ on share cloud disk，Total 3 Copy Maybe on Cloud Disk，Total 9 Copy Reduce Cost Support Cold Storage Support OSS，Cut by 70% at less read NO KV，Tabular，SQL，Graph，Time Series，Geospatial Multi-model DB Multi-model DB KV，Tabular Full Text index， Search Disaster recovery Backup and Restore NO，maybe3.0 Security user/password，ACL Kerberos，ACL Enterprise Characteristics Analytics Spark on HBase ，More optimization Spark on HBase Version upgrade Automatic upgrade N/A Database 15min Create a DB/Monitor N/A control system Online add storage and node/Elastic Power in future Self-driven Diagnostic System Big request ，Big Table merge，Hot Region …… NO

19 .ApsaraDB For HBase核心场景

20 .数据类型存储对象代表场景组件优势简单kv信息 KV/表格存储稀疏表风控画像表等稀疏表 HBase API 动态列 SQL语法 SQL 带类型的替换单机关系数据库 HBase - Phoenix 具备Hbase 所有的优势文档数据 json/xml/html 新闻 HBase API 存储空间大性能与存储空间对象数据图片/视频等小对象存储 HBase 兼备 HBase 时序数据传感器数据监控数据 HBase - OpenTSDB 写性能高、存储量大 HBase 时空数据轨迹轨迹、时空数据 HBase - GeoMesa 写性能高、存储量大图关系数据关系欺诈场景 Hbase - HGraphDB 分布式图计算前置 OLAP cube 报表 Kylin或自己构建实时查询

21 . 物联网场景个性化业务 1、单表PB 2、单条查询平均 10ms 娃娃机各类分析 3、写入TPS超1亿运动APP 车、设备等监控数据接入层 Spark&SparkSQL 监控设备 HBase&OpenTSDB GeoMesa kafka Spark Streaming 解决问题交易红包 HBase 超过1k直接存储、存储较大 GeoMesa 轨迹查询、区域分布统计、区域查询、OD分析 RDS关系型数据库 OpenTSDB 静态的传感器、IOT(插值、倒排) 数据库事务交易

22 . 用户标签 – 稀疏表 C1 …… C10000000 列/行 Value Value Value Value 用户画像、标签 Value …… Value Value 动态列，可以数万列 Value 稀疏表，不存数据，不占空间 Value Value Value Value 1万亿行 Value

23 . 实时小对象存储场景：读取每个组的全量数据 1、其中 90% 左右的组含有1 ~ 10张人脸元数据与存储统一管理！！ 3、其余组人脸数范围为 10 ~ 20000张脸左右业务性能提升500倍！！业务 4、其中每张脸 2k 左右宽表存储 - 一次性读取一行 2、查询小对象 1、查询元数据 OSS MySQL HBase 10000个脸时，读性能10s 性能提升 500+倍当一个组10000个脸的性能 20ms

24 . 历史记录查询查询系统电商交易红包水电单索引查询条件说查询示例平均查询时间 Solr查询时明 (ms) 间精确查询 qd_s:QD030000545472 91 34 模糊查询 sj_s:SJ0600004*613 303 228 范围查询 rq_i:[100000 TO 200000] 252 180 精确查询 rq_i:2571198 AND yd_s:YD040000657960 86 73 模糊查询 xm_s:EEE?MP*FFFFF AND sj_s:SJ0800007*123 358 342 AND 组合范围查询 rq_i:[8000 TO 82000] AND zt_s:ZT0000000004 343 259 HBase Solr 组合查询 ys_s:YS0000000004 AND xm_s:LLL*Q*MMMMM AND rq_i:[80000 TO 9000000] 611 530 精确查询 rq_i:175948 OR rq_i:175971 223 160 模糊查询 xm_s:AAA?MP*FFFFF OR xm_s:AAA*AE*FFFFF 249 239 消息队列 OR 组合范围查询 rq_i:[175900 TO 175950] OR rq_i:[175951 TO 17600] 197 172 rq_i:175948 OR xm_s:AAA?MP*FFFFF OR xm_s:AAA*AE*FFFFF OR 组合查询 220 212 架构要点： rq_i:[175900 TO 175950] 精确查询 (rq_i:175948 OR rq_i:175971) AND yd_s:YD100000583175 76 62 1、全量数据与索引数据分开，大概30:1数据量关系 (xm_s:GGG?MP*MMMMM AND xm_s:GGG*E*MMMMM) OR 模糊查询 xm_s:GGG?QG*MMMMM 233 226 比如原始数据30T，索引数据1T左右 AND + OR 组合 (rq_i:[8000 TO 82000] AND rq_i:[9000 TO 10000]) OR rq_i:[175951 TO 范围查询 17600] 206 198 2、Solr数据尽量缓存在内存 (xm_s:JJJ*BQ*CCCCC OR rq_i:[1320000 TO 1400000]) AND 组合查询 xm_s:JJJ*AE*CCCCC 259 252 3、HBase内置同步逻辑，保障数据不丢失 4、90%查询走HBase API，10%走solr

25 .我看人才的成长

26 . PS：人才的成长引领-带领 7-10年无中生有 4-6年成为专家 2-3年夯实基础

27 . PS：人才的成长行动自我驱动意愿

28 . PS：人才的成长心力体力脑力

29 . PS：人才的成长关注社区项目中成长多写文章坚持请教高手保持敬畏

2点赞

0收藏

1下载