HBase at Tencent Cloud

来自腾讯的工程师陈龙为我们分享了 HBase 在腾讯云上的经验。
云上服务会遇到很多管理和用户相关的问题。陈龙说明了云服务的3个挑战:

  • 大量的技术咨询工作。

  • 紧急情况的处理。

  • 故障定位分析。

并结合两个案例分析云服务的挑战。

腾讯云在监控方面,通过 OpenTSDB 收集 table 和 region 的 metirc, 用户可以登录云监控,设置 Qps 到某一阈值后,做反向通知。

陈龙分析了云上的故障有4类原因:
  • 外部因素:例如资源泄露,大量请求,coprocessor 问题

  • 硬件因素:磁盘、网络、CVM、资源

  • 存储因素:块丢失、读写超时

  • 配置因素:jvm、memstore、blockcache、flushsize

腾讯云通过提供文档,工具和监控等三个方式,解决在云上遇到的多种问题。陈龙最后分享了监控系统的架构。分享了云上管理服务的架构,比如需要快速的扩容或者缩容集群等。

展开查看详情

1.

2.

3.

4.

5.2 Cloud Management Service 12 2 1. Manage all clusters 2 2. Provide technical services User Space 1. Isolation between each user cluster 2. Separate host 3. Separate network 4. Focus on slef business

6.2 3 0 1 2 1 2 0 2 0 2 2 2

7.

8.

9. 1 E E 3 C C C C C C 03 E C 3 3 3 33 3 C E 3 3 /C 3 3 C 3C C3 3 3C / 2 3 3

10.

11. 4 3 1 33 3 1 3 3 1 31 33 3 4 3 4 2 413 413 3 1 3 1 33

12. Table Level View 2 1 8 0 5 1. List table’s qps 2 8 0 2. Tree view region’s qps of table 2 8 0 Region Level View 1. List region’s qps 6 -/322 1 6 6 3 8 5 2. List call client’s qps 6 -/32 6 6 -/32 6 6 -/32 6

13. : - : : - : : : : : : : : : :

14.

15.

16.

17. C 1 . / 1 . 2 1 . 142 4 5 . /4 4 4 2 . 4 4 / 4 . . .3 . . . 1 3 4 . EEEE

18./ / A / / A A

19.-

20.

21.

22. Web console Web console Cloud Service Cloud Management Service TaskCenter

23.