肖双 - 去哪儿网监控报警平台的设计与实现

通过分析去哪儿网原来的报警系统,分析存在的问题,对应解决,构建新的设计思路与架构落地。
展开查看详情

1. E T B .N P U IT

2.去哪儿网监控报警平台的设计与实现 E T B .N U 肖双 @去哪儿网 ITP

3.目录 01 E T Watcher 监控系统的介绍及架构展示 02 B . 报警系统的设计和演进N P U IT 03 报警遇到的痛点与解决方法

4. E T 01 .N Watcher 监控系统的介绍及架构展示 B P U IT

5. 原来的报警监控系统 部门1 部门2 E T 部门3 B .N U Cacti Cacti Cacti Nagios ITP Nagios Nagios

6. 存在的问题 T Cacti单机部署,不能横向扩展,性能差,非高可用 .N E 各部门维护一套甚至多套,运维成本高 U B P 报警配置有专人负责,不能由开发人员定制,效率低 IT各个监控系统之间数据不通

7. 解决方案 E T B .N Watcher P U 企业级统一监控报警平台 IT

8. Watcher简介 E T 基于开源项目Graphite + Grafana深度开发 B .N U 支持主机基础监控报警和业务监控报警 IT P 提供统一的管理展示界面

9. 规模 E T 应用 B 指标数 .N 报警 1.5K+ P U4千万+ 100万+ IT

10. 特性 T 用户自定义报警以及个性化报警 .N E 自定义报警级别,报警升级和值班排班 U B IT P 树形结构的指标和视图展示 横向扩展能力强,数据高可用

11. E T B .N P U IT

12. E T B .N P U IT

13.架构 Metrics 打数 Dashboard 报警 Mirror E T Relay B .N 指标DB U 一致性哈希 Graphite-api 原有组件 IT P Graphite-web Carbon whisper 一致性哈希

14.主机 硬件管理平台 Dashboard T 同步Collectd 主机 .N E Graphite-api B Collectd 报警 P U Metrics Graphite-api IT 主机名区分 Watcher

15.业务 应用 用Appcode标识 Dashboard Qmonitor client T 以Appcode为单位 E 拉取数据 N Graphite-api Qmonitor server B . 报警 Metrics P U Graphite-api IT 以Appcode区分 Watcher

16. E T 02 B .N 报警系统的设计和演进 P U IT

17. 报警系统初期 E Tmail N Nagios B . 电话 P U IT Watcher

18. NRPE基本原理 E T check_disk Nagios check_nrpe B .N NRPE check_load P U check_http IT Monitoring Host Remote Host check_ping

19. Nagios初期规模 报警数量 E T 监控服务 B .N 30万+P U IT 10万+

20.单机房Nagios架构 T 监控系统 NagiosAPI Nagios .N E U B IT Host P Host Host ….

21. 引发问题 E T N Load 高,长期处于高负载状态 B . P U 响应慢,各种API操作耗时长 IT

22. 首次改进 T NagiosAPI 监控系统 NagiosAPI Hash . Hash N E B Nagios1 Nagios2 P U Host IT Host Host Host Host Host

23. T A B C 报警数量 . 监控服务 N E 通知方式 100万+ U B 70万+ • 短信 P • 电话 IT • qtalk

24.Nagios遇到的问题 无高可用,恢复时间长 E T B . 横向扩展难 N P U IT Web管理界面多 Reload时间长,不实时

25. E T B .N P U IT

26. Nagios Icinga T Ø 无高可用,恢复时间长 Ø 分布式、高可用 Ø 横向扩展难 VS .N E Ø 横向扩展能力强 B Ø Web管理界面过多 Ø Web管理界面统一 U Ø Reload时间长,不实时 Ø 丰富的API,添加删除配置无 IT P 须Reload,实时 Ø 兼容Nagios 以及 NRPE

27. Icinga基础架构 E T B .N P U IT

28. 负载对比 Nagios E T B .N Icinga P U IT

29. 操作对比 Nagios E T Icinga 操作 15秒 B .N 操作 毫秒级 P U IT 5分钟reload 实时