监控系统经历大数据转型后迎来AI浪潮。这个主题分享腾讯织云监控的演进过程和考量因素。结合实际案例场景展示织云从用户端到IAAS层的立体化监控理念和数据化DevOps理念。同时分享织云在AIOps领域的智能检测、根因分析和ROOT根源分析实践场景,展望未来监控转型方向。

注脚

展开查看详情

1.智能监控案例

2.无阈值异常检测 阈值检测问题: 统计判别法 无监督算法 3sigma Isolation Forest 影响根源分析准确性 异 常 异 1.告警不准 常 故障自动发现率40% 漏告警或误告警 待定库 tsfresh 2. 维护困难 GBDT 业务和人员变更 告警配置未持续更新 人工判定 3. 告警量大 人均告警100条/天 样本库 个人最大告警量达1000条

3.ROOT-异常根源分析

4.异常根因分析 异常维 异常KPI 度组合 曲线 1.通用性,应用于成功率和累积量指标 2.准确率,增加总量权重和异常权重 3.性能,秒级在线分析