- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
肖双 - 去哪儿网监控报警平台的设计与实现
展开查看详情
1 . E T B .N P U IT
2 .去哪儿网监控报警平台的设计与实现 E T B .N U 肖双 @去哪儿网 ITP
3 .目录 01 E T Watcher 监控系统的介绍及架构展示 02 B . 报警系统的设计和演进N P U IT 03 报警遇到的痛点与解决方法
4 . E T 01 .N Watcher 监控系统的介绍及架构展示 B P U IT
5 . 原来的报警监控系统 部门1 部门2 E T 部门3 B .N U Cacti Cacti Cacti Nagios ITP Nagios Nagios
6 . 存在的问题 T Cacti单机部署,不能横向扩展,性能差,非高可用 .N E 各部门维护一套甚至多套,运维成本高 U B P 报警配置有专人负责,不能由开发人员定制,效率低 IT各个监控系统之间数据不通
7 . 解决方案 E T B .N Watcher P U 企业级统一监控报警平台 IT
8 . Watcher简介 E T 基于开源项目Graphite + Grafana深度开发 B .N U 支持主机基础监控报警和业务监控报警 IT P 提供统一的管理展示界面
9 . 规模 E T 应用 B 指标数 .N 报警 1.5K+ P U4千万+ 100万+ IT
10 . 特性 T 用户自定义报警以及个性化报警 .N E 自定义报警级别,报警升级和值班排班 U B IT P 树形结构的指标和视图展示 横向扩展能力强,数据高可用
11 . E T B .N P U IT
12 . E T B .N P U IT
13 .架构 Metrics 打数 Dashboard 报警 Mirror E T Relay B .N 指标DB U 一致性哈希 Graphite-api 原有组件 IT P Graphite-web Carbon whisper 一致性哈希
14 .主机 硬件管理平台 Dashboard T 同步Collectd 主机 .N E Graphite-api B Collectd 报警 P U Metrics Graphite-api IT 主机名区分 Watcher
15 .业务 应用 用Appcode标识 Dashboard Qmonitor client T 以Appcode为单位 E 拉取数据 N Graphite-api Qmonitor server B . 报警 Metrics P U Graphite-api IT 以Appcode区分 Watcher
16 . E T 02 B .N 报警系统的设计和演进 P U IT
17 . 报警系统初期 E Tmail N Nagios B . 电话 P U IT Watcher
18 . NRPE基本原理 E T check_disk Nagios check_nrpe B .N NRPE check_load P U check_http IT Monitoring Host Remote Host check_ping
19 . Nagios初期规模 报警数量 E T 监控服务 B .N 30万+P U IT 10万+
20 .单机房Nagios架构 T 监控系统 NagiosAPI Nagios .N E U B IT Host P Host Host ….
21 . 引发问题 E T N Load 高,长期处于高负载状态 B . P U 响应慢,各种API操作耗时长 IT
22 . 首次改进 T NagiosAPI 监控系统 NagiosAPI Hash . Hash N E B Nagios1 Nagios2 P U Host IT Host Host Host Host Host
23 . T A B C 报警数量 . 监控服务 N E 通知方式 100万+ U B 70万+ • 短信 P • 电话 IT • qtalk
24 .Nagios遇到的问题 无高可用,恢复时间长 E T B . 横向扩展难 N P U IT Web管理界面多 Reload时间长,不实时
25 . E T B .N P U IT
26 . Nagios Icinga T Ø 无高可用,恢复时间长 Ø 分布式、高可用 Ø 横向扩展难 VS .N E Ø 横向扩展能力强 B Ø Web管理界面过多 Ø Web管理界面统一 U Ø Reload时间长,不实时 Ø 丰富的API,添加删除配置无 IT P 须Reload,实时 Ø 兼容Nagios 以及 NRPE
27 . Icinga基础架构 E T B .N P U IT
28 . 负载对比 Nagios E T B .N Icinga P U IT
29 . 操作对比 Nagios E T Icinga 操作 15秒 B .N 操作 毫秒级 P U IT 5分钟reload 实时