海量在线交易背后的运维监控体系建设

海量在线数据面临复杂,增长等特点,往往会造成 用户比我们先发现故障,网站宕机频繁,定位时间长,诊断问题缺乏有效维护工具,带来营收损失。携程成立NOC团队 - 故障事件分级 - 定义SLA和故障升级流程,通过业务监控,系统层监控,应用于服务监控来解决这一难题。
展开查看详情

1.

2.

3.海量在线交易背后的 运维监控体系建设 携程旅行网 程国强

4. 作者介绍 程国强 (Taurus) 晓刚 (Kenny) 网站运营系统 发 总监 网站运营系统 发 高级经理

5. 目录 u  挑战与困境 u  监控体系打造思路 u  携程监控工具集 u  实例分析 u  未来方向

6. 挑战- 杂 访问渠道 在线 (web)  ,电话语音,无线 平 台 复 杂 业务类型 机票,酒店,度假,攻略…. 性 高 子系统 公共服务,Call  Center,供应商接口,BI,Cloud

7. 挑 战 – 增 ⻓长 高增⻓长 vs 低成本 交易量 网站流量 服务器数量 代码发布数量 员工数量 2013 2014 2020

8. 困境 网站故 Ø 用户比我们先发现故障 障几率 增加 Ø 网站宕机频繁 故障发 现滞后 损失 Ø 定位时间⻓长 营收 Ø 诊断问题缺乏有效工具 排障时 间长

9. 监控体系打造思路 网站可用性(ATP)   途径与 Availability  =  UpLme  /  (UpLme  +  DownLme)   工具 Availability Down-me 90% 36.5  days/year 人员 99% 3.65  days/year 组织 99.9%  8.76  hours/year 可衡量的 99.99% 52  minutes/year 网站可用 性目标 99.999% 5  minutes/year 99.9999% 31  seconds/year!

10. 组织方式 成立NOC团队 - 故障事件分级 - 定义SLA和故障升级流程

11. 监控着手点 网 业务数据 •  有问题 1   网站前端 络 监控 吗? 登 2   应用层 业 流 录 •  问题在哪 务 量 服务与系 3   服务层 与 统监控 里? 订 / 注 4   数据库 单 防 应用内部 •  问题是 册 火 监控 什么? 5   基础架构 墙

12.避免不合理的期望 多而全 代价 20/80原则 报警噪音 从无到有 监控点过多 计算/存储资 源 精细数据保 做精做细 留时间过长 工具维护成 本

13. 携程监控工具集 CATS Alerts Alerts Eudemon     (App  告警平台) Alerts Alerts Sysmon     (Zabbix  Dashboard) App   Service   Metrics Metrics Sitemon DB  Monitor Zabbix Clogging  &  Dashboard ElasLcSearch   Sys  Metrics Biz  Metrics Logs DB  Metrics Logs 携程网站

14. Sitemon(业务监控) 监控对象:   •  订单,支付数据   •  关键URL服务质量   •  ESB服务质量   •  第三方接口可用性   -­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐   报警策略:   •  对比预测线   •  周环比   •  深跌/突增   •  长时间微跌   •  跌0     -­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐-­‐   报警方式:   •  Web弹窗+声音   •  邮件 +  短信   •  IRC  

15.呼叫中心(offline) 万人级别的呼叫中心,携程独特的业务决定 。

16. 系统层面监控 基于 基 容 础 量 设 分 施 析 层 与 监 管 控 理 数 据 库 监 控

17. 应用与服务监控 应用报错 服务响应时间

18. 监控有效的展现 周环比排名 percenLles

19. 应用与服务的告警 应用与服务的告警,是业务告警的“冒烟警示”   告警一定是有级别,逐步升高的

20. 告警– 活 vs 自服务 开发人员通过Python  DSL开发trigger 阈值开放给用户自定义

21.Sitemon移动客户端

22.监控告警追踪管理- CATS •  处理报警统一入口   •  报警信息补充   •  重复报警去除   •  报警优先级区分   •  报警抑制   •  报警聚合   •  与工作流系统联动

23. 实例分析 16:17  16:15    NOC开启电话会议,加PD、OPS-­‐DBA、OPS-­‐APP排查  通过查看相关工具定位问题在数据库方面 16:18 2014-­‐08-­‐15    OPS-­‐DBA做出相应处理   16:14  NOC监控收到订单下降告警 16:20              订单恢复

24. 未来方向 建立统一监控平台   快速定位与处理    完善的配置管理系统   §  解决监控系统分散问题   •  关系 § 数据间的关系是核心   •  属性 •  状态 §      监控技术栈    自动化控制   •   采集   •   传输   •  服务自动重启 • 聚合   •  限流,熔断 •   读取与计算   • 图形化展示   •  资源重新分配,扩容 • 支持灵活的告警规则   一体化   智能化  

25. 架构构想 Push Linux Windows Urls,  Services,   Logging  Systems Monitoring   Metrics  APIs Profile collectD statD Nagios  Core Metrics  Bus    (Kaba  ) CMDB Storm   RealLme  Metrics (aggregaLon) Rule  Engine Graphite/influxDB     Data  Warehouse   Historic  Metrics Python   Esper DSL Alerts Dashboard CATs Capacity  Management

26.Q&A We  are  hiring

27.@InfoQ   infoqchina