HBase蒋晓明

HBase蒋晓明HBase蒋晓明HBase蒋晓明
展开查看详情

1. HBase 在审计行业的应用 蒋晓明 毕马威智能创新空间 中国 HBase 技术社区网站:http://hbase.group

2. 目录 01 背景介绍 02 企业财务信息详情查询 03 企业内部自动化电子对账 04 总结与展望 中国 HBase 技术社区网站:http://hbase.group

3. 背景介绍 01 选用HBase的原因. 中国 HBase 技术社区网站:http://hbase.group

4. 1 选用HBase进行查询的原因 优化方式多 HBase的优化,如调整RowKey的散列规则,使用数据量尽量均衡分布在RegionServer 上加速查询. 应用场景契合 财务报表维度多样化,不同维度的组合可以拼接成记录的唯一标识形成Key-Value形式,通过穷举 法将审计人员的查询条件枚举出来,每一种枚举条件可以作为一类记录的标识 功能比较齐全、成本低 具有传统审计使用的Oracle存储跟快速查询功能,业界又有很多成功的案例,最重要的是免费 总结:Hbase可以作为当前审计查询的选择 中国 HBase 技术社区网站:http://hbase.group

5. 企业财务信息详情查询 02 根据财务审计人员查询条件快速返回结果 中国 HBase 技术社区网站:http://hbase.group

6. 1 举例 某公司多维分析报表 表数据量1亿100w条,大约500G,基于Hbase 10台机器集群 优化思路:1 .将部分数据加入到缓存中,加速查询 2.设计优化RowKey,让数据均衡分布到集群的机器中 3.调整Hbase系统参数,分配系统更多运行资源 中国 HBase 技术社区网站:http://hbase.group

7. 1 Hbase 查询优化方式具体介绍 优化存储的RowKey 针对单个维度的查询,根据Hbase的RowKey排序按照ASCII字典排序,将数据存放分布不同的机器节点上,针对多个单维度的组合查询, 例如公司[G111111]跟科目[K111111]将其Code进行倒序,使得在公司[111111G]跟科目编码[111111K]在同一台机器上进行查询,并且一次性取出 适当调整客户端缓存大小 财务人员使用的查询数据场景比较单一,可以预估哪些场景的数据比较热点,提前设置好查询 客户端缓存的大小 调整系统相关参数 调整RegionServer的JVM的HeapSize大小,Metastore大小,调高RegionServer的处理线程数等 中国 HBase 技术社区网站:http://hbase.group

8. 1 碰到的问题 1.实际使用的工程中,通过监控发现部分HRegionServer的负载比较高 解决方法:给集群添加机器,Hbase迁移部分老的RegionServer上的region到新加入的机器上,使得每个RegionServer的负载均 匀,通过夜间业务空隙手动触发split切分部分较大Region,均匀分布热点region到各个RegionServer上 2.Hbase 出现查询缓慢甚至假死的现象 解决方法:通过后台监控日志发现很多long garbage collectiong pause 和Jvm PauseMonitor,将JvmPauseMonitor的时间累计起 来超过 Zookeeper Session Timeout的时间,导致Zookeeper认为此临时节点对应的RegionServer死了,就删除此节点,当前采用的 方法是调整RegionServer 上的JVM的Heap size大小 中国 HBase 技术社区网站:http://hbase.group

9. 企业财务信息详情查询 03 企业内部自动化电子对账 中国 HBase 技术社区网站:http://hbase.group

10. 1 场景 某公司半年财报内部数据对账 内部数据对账场景分为一对一金额相同,一对多金额相同,一对多金额抵小 中国 HBase 技术社区网站:http://hbase.group

11. 1 设计方案 – 历史方案 VS 当前方案 历史方案 对账结果 Oracle数据库 对账功能模块 Redis 集群 定时获取数据 查询 Web应用查询结果 当前方案 Web应用查询 查询 定时批量获取数据 HBase集群 对账功能模块 对账结果回写 中国 HBase 技术社区网站:http://hbase.group

12. 总结与展望 04 HBase 的总结与展望 中国 HBase 技术社区网站:http://hbase.group

13. 1 Hbase 总结 与展望 扩展性 资源利用率 研发效率 监控 Hbase 功能层面可以作为查询、 Hbase导入数据前需要进行 研发人员可以专心研究 实现智能化监控运营 新增数据,也可以作为多个系统之 RegionServer的预估分布,合理设计 HBase不需要同时掌握 Redis 跟 间的消息中间件 RowKey合理利用资源 Oracle 中国 HBase 技术社区网站:http://hbase.group

14. THANK YOU 中国 HBase 技术社区网站:http://hbase.group

15. 加入我们;另外,阿里云提供云 HBase 技术支持,欢迎扫描下面二维码。 HBase 技术社区公众号 社区管理员 阿里云 HBase 技术支持 中国 HBase 技术社区网站:http://hbase.group