张岩-智能故障预测与应用健康管理实践

减少应用故障的产生以及快速修复故障,是应用运维工作的两大目标,张岩老师就此展开了去哪儿在智能故障预测与应用健康管理方面的实践分享。他详细阐述了去哪儿运维从人工/半自动→运维自动化→建立Portal平台的演进过程,并具体介绍了故障预测与健康管理(PHM)的方法论,以及去哪儿基于此进行的具体实践,这种从理论到落地的讲解让大家茅塞顿开。

展开查看详情

1.智能故障预测与应用健康管理实践 演讲人:张岩 全球敏捷运维峰会 北京站

2. 目录 1 OPS的目标 & 工作 2 Qunar运维演进 3 故障预测与健康管理(PHM)简介 & 方法论 4 Qunar的实践 5 前景与问题 全球敏捷运维峰会 北京站

3. OPS的目标 减少应用的故障产生 快速修复故障 全球敏捷运维峰会 北京站

4. OPS的职责 围绕这个公式展开的 可用度 = MTBF / (MTBF + MTTR) MTBF:平均无故障工作时间。在规定的工作环境条件下开始工作到出现第一个故障的时间的平均值。 MTTR:平均修复时间。是指可修复产品的平均修复时间,就是从出现故障到修复中间的这段时间。 全球敏捷运维峰会 北京站

5. 精确定位 已发生 有效隔离 的故障 快速解决 全球敏捷运维峰会 北京站

6. 如何应对故障 容量预测 未发生 故障预测 的故障 健康管理 全球敏捷运维峰会 北京站

7. 目录 1 OPS的目标 & 工作 2 Qunar运维演进 3 故障预测与健康管理(PHM)简介 & 方法论 4 Qunar的实践 5 前景与问题 全球敏捷运维峰会 北京站

8. Qunar运维演进 人工/半自动 人工/半自动 ◼ 业务方提工单/邮件,人工审核 ⚫ 效率低,无法有效审计 ◼ OPS人工处理 运维自动化 运维自动化 ⚫ 操作无法标准化、脚本/工具无法收敛、知识无法沉淀 ◼ 通知业务方、业务方Check ◼ CMDB(OPSDB) ⚫ 不及时,阻塞OPS并发执行任务,沟通成本极高 ◼ 监控平台(Watcher) ◼ 独立领域自动化工具/平台 Portal Portal ◼ 审批工作流 ◼ IM(Qtalk) ◼ 资源、CI/CD、监控、日志、基础服务集中管理 ◼ 统一入口、统一认证/授权 ◼ 应用全局唯一标识(appcode) ◼ 基础运维数据同步共享 ◼ 应用全寿命周期管理 全球敏捷运维峰会 北京站

9.手段和策略 故障事后处理 ✓ 故障review ✓ 整改措施&追踪 ✓ 故障知识库 故障实时发现 ✓ 事件关联 ✓ 根因分析 ✓ 快速定位/止损 故障预测 全球敏捷运维峰会 北京站

10. 目录 1 OPS的目标 & 工作 2 Qunar运维演进 3 故障预测与健康管理(PHM)简介 & 方法论 4 Qunar的实践 5 前景与问题 全球敏捷运维峰会 北京站

11.PHM历史沿革 故障预测与健康管理(Prognostic and Health Management,PHM) NASA提出VHM 进化为ISHM JSF项目的启动 飞行健康监控 综合系统监控管理 大大推动了 PHM的发展 全球敏捷运维峰会 北京站

12.PHM应用领域 全球敏捷运维峰会 北京站

13.PHM应用于互联网领域的探索 大数据实施流处理,机器学习人工智能普及化 技术满足 理论界成熟的理论支撑,工业界充分的实践验证 理论完备 避免失效,提高应用可靠性 目标一致 全球敏捷运维峰会 北京站

14.PHM方法论 – 流程 全球敏捷运维峰会 北京站

15.PHM方法论 – 模型 ① 基于故障状态信息 ② 基于异常现象信息 ③ 基于使用环境信息 ④ 基于损伤标尺信息 全球敏捷运维峰会 北京站

16.PHM方法论 – 要求 01 及时性要求 预留足够的维修保障时间 经济性要求 可评价验证 预测成本 < 故障损失 结果有效性必须可量化验证 02 03 全球敏捷运维峰会 北京站

17. 目录 1 OPS的目标 & 工作 2 Qunar运维演进 3 故障预测与健康管理(PHM)简介 & 方法论 4 Qunar的实践 5 前景与问题 全球敏捷运维峰会 北京站

18.故障预测流程 1 指标采集 2 数据预处理 3 故障诊断 6 用户反馈 5 健康状态通知 4 故障预测 全球敏捷运维峰会 北京站

19.预测指标的选择 基础监控指标 中间件日志 系统日志 业务监控指标 业务日志 完整、客观 点击请替换文字内容 点击请替换文字内容 真实、有效 基础报警 应用关联关系 业务报警 运维事件 全球敏捷运维峰会 北京站

20.故障预测 01 策略&阈值 静态阈值设置 03 预测模型 指标趋势预测 动态阈值设置 时序异常检测 指标检测策略 事件关联分析 02 历史数据比对 短期环比 04 故障知识库 故障场景匹配 长期环比 运维经验 同比 同比振幅 2 0 全球敏捷运维峰会 北京站

21.故障预测 示例 – 动态阈值(移动平均值) 全球敏捷运维峰会 北京站

22.故障预测 示例 – 静态阈值(差分) 全球敏捷运维峰会 北京站

23.故障预测 示例 – 环比历史数据 全球敏捷运维峰会 北京站

24.故障反馈 机制健全 渠道畅通 响应及时 反应迅速 自上而下的建 通过技术手段 对反馈分类, 对有效反馈快 建立多种方便 对有效需求进 速处理,有效 立规范和制度。 的反馈渠道。 行处理,甄别 的将处理结果 提高全员对可 无效需求的内 呈现出来 涵。 靠性的认识。 全球敏捷运维峰会 北京站

25.健康看板 全球敏捷运维峰会 北京站

26.健康档案 全球敏捷运维峰会 北京站

27.运维事件时间轴 全球敏捷运维峰会 北京站

28.关联拓扑图 全球敏捷运维峰会 北京站

29. 基石 之 appcode 应用唯一标识 关联运维事件 关联监控指标 关联报警 1. 全局唯一 1. 记录运维操作 1. 业务指标关联 所有报警必须关联 2. 无层级关系 2. 触发运维事件 2. 基础指标关联 到appcode。明确 3. 统一标识各种资源 3. 关联appcode 报警有何处发出, 4. 全生命周期跟踪 被何人接收。 全球敏捷运维峰会 北京站

数据连接未来!围绕Database、Bigdata、AiOps的企业级专业社群。行业大咖、技术干货,每天精品原创文章推送,每周线上技术分享,每月线下技术沙龙,受众20W+。