HBase技术在网易公司核心业务应用场景的案例分享,并重点介绍其中碰到的问题和踩到的坑,难得的规模应用借鉴。

注脚

展开查看详情

1.HBase 技术交流分享

2.Agenda HBase 在大数据领域的定位 网易 HBase 核心应用场景 RIT & HBCK HBase 问题排查思路

3.大数据体系有一统天下的平台吗?

4.HBase 能干啥? HBase 适合干啥?

5.

6.Agenda HBase 在大数据领域的定位 网易 HBase 核心应用场景 HBCK & RIT HBase 问题排查思路

7.网易 HBase 核心应用场景 300+ 物理机 3PB+ 数据量

8.网易 HBase 核心应用场景 网易考拉 网易云音乐 网易新闻客户端 网易哨兵平台 网易数据采集平台 数据中心推荐服务 网易易盾 网易七鱼 网易猛犸大数据 网易支付 网易广告平台 新闻头条推荐

9.网易 HBase 核心应用场景 – 在线服务类 用户 原始 数据 HDFS MR/Spark 模型算法 HDFS HBase HDFS 在线服务 bulkload

10.网易 HBase 核心应用场景 – 在线服务类 新闻推荐 用户画像业务 歌单 电商优惠券玩法

11.网易 HBase 核心应用场景 – 监控类 OpenTSDB 升级版:采集层、聚合层完全自研

12.网易 HBase 核心应用场景-订单信息类 私信通知 App push 通知 历史消息 历史订单业务

13.网易 HBase 核心应用场景-其他 信息安全用户轨迹 酷炫大屏 日志明细归档 货品上下架操作记录 cdn 流量及带宽数据 搜索历史纪录

14.网易 HBase 核心应用场景-其他 信息安全用户轨迹 酷炫大屏 日志明细归档 货品上下架操作记录 cdn 流量及带宽数据 搜索历史纪录

15.HBCK

16.HBCK - HBCK 检查什么? HBase Region 一致性 集群中所有 region 都被 assign ,而且 deploy 到唯一一台 RegionServer 上 该 region 的状态在内存中、 hbase:meta 表中以及 zookeeper 这三个地方需要保持一致 HBase 表完整性 对于集群中任意一张表,每个 rowkey 都仅能存在于一个 region 区间

17.HBCK – 常用检查命令 ./bin/hbase hbck ./bin/hbase hbck –details ./bin/hbase hbck TableFoo TableBar

18.HBCK - 局部低危修复 -fixAssignments : 修复没有 assign 、 assign 不正确或者同时 assign 到多台 RegionServer 的问题 region 。 -fixMeta :主要修复 .regioninfo 文件和 hbase:meta 元数据表的不一致。修复的原则是以 HDFS 文件为准:如果 region 在 HDFS 上存在,但在 hbase.meta 表中不存在,就会在 hbase:meta 表中添加一条记录。反之如果在 HDFS 上不存在,而在 hbase:meta 表中存在,就会将 hbase:meta 表中对应的记录删除。

19.HBCK – 高危 修复 region 区间 overlap 相关问题的修复属于高危修复操作,因为这类修复通常需要修改 HDFS 上的文件,有时甚至需要人工介入。 对于这类高危修复操作,建议先执行 hbck -details 详细了解更多的问题细节,再执行相应的修复命令

20.HBCK – 高危 修复 -repair | -fix 命令强烈不建议生产线使用

21.HBCK – 案例

22.HBCK – 案例

23.RIT 处理套路 套路一: pending_open (或 pending_close )状态的 region 通常可以使用 hbck 命令修复 套路二: failed_open (或 failed_close )状态的 region 通常无法使用 hbck 命令修复 套路三: failed_open (或 failed_close )状态的 region 需检查日志确认 region 无法打开关闭的具体原因 套路四: region 处于 RIT 状态但 hbck 显示正常,把 zk 上的 region-in-transaction 节点相关 region 删除,重启 master

24.Agenda HBase 在大数据领域的定位 网易 HBase 核心应用场景 HBCK & RIT HBase 问题排查思路

25.HBase 问题基本排查套路

26.HBase 不可取排查套路 刚刚一台 RS 莫名宕机了,起了好几次都没起来,有谁知道怎么回事? 有个 Region 不知道为什么处于 RIT 了(截个图),急救急救!

27.HBase – 监控体系 业务读写响应变慢,写入阻塞, RS 宕机 … ,第一反应都应该去看监控! 就像发生一起交通事故,第一反应是去看摄像头! 监控做好了,几乎所有的异常都可以及时反映出来! 资源使用情况,队列使用情况,业务相互干扰情况, Compaction 情况, GC 情况

28.HBase – 监控体系

29.HBase 排查问题思路

user picture
为了让众多HBase相关从业人员及爱好者有一个自由交流HBase相关技术的社区,阿里巴巴、小米、华为、网易、京东、滴滴、知乎等公司的HBase技术研究人员共同发起了组建中国HBase技术社区。

相关文档