腾讯云智能运维(AIOps)项目实践

腾讯云高级研究员张戎,分享的主题《腾讯云智能运维(AIOps)项目实践》主要是从智能运维场景描述、单维时间序列分析、多维时间系列分析、近期工作和未来的研究方向这几个方面展开介绍的。在演讲中,张老师提到整个智能运维分为好几个阶段:

  • 第一个是我们刚刚开始机器学习的能力,而从刚刚开始应用到逐渐能够成熟落地其实这个是有很长的时间段的,通常来说是1-2年甚至是更长的时间。
  • 第二个就是我们各个能力相对完备一点,比如说异常检测、分析、日志提取或者是模板分析的内容,做到相对完善的功能。然后这一块我们尽量做到尽量少的人工参与。
  • 最后会实现一个终极的AIOPS的阶段,有一个终输的流程的大脑,我们可以在效率、质量、成本三个方面达到一个相对均衡的状态,让我们的系统达到一个相对稳定的过程。
展开查看详情

1.云+社区技术沙龙

2.腾讯智能运维(Metis)项目实践 张戎 机器学习高级研究员

3.SPEAKER 张戎 腾讯云 云服务平台部 机器学习高级研究员 • 2015年毕业于新加坡国立大学数学专业,获博士学位; • 2015年加入腾讯科技(深圳)有限公司,机器学习岗位; • 智能推荐系统:神盾推荐项目,2015年7月-2016年5月 • 智能安全系统:机器学习+安全业务,2016年6月-2017年7月 • 智能运维系统:机器学习+业务运维,2017年8月-至今

4.目录 01 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 04 Metis 的研究方向 展望未来

5.基于机器学习的智能运维 智能运维(AIOps) • 时间序列异常 发现问题 • 日志分析异常 • 设备性能异常 • 多维下钻分析 分析问题 • 关联事件分析 • 容量预估分析 • 扩容 • 决策 解决问题 • 调度 • 优化

6.智能运维学件库 智能运维学件库 • 可重用 • 可演进 • 可了解

7.智能运维能力框架体系

8.AIOps 团队角色划分

9.目录 01 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 04 Metis 的研究方向 展望未来

10.单维时间序列分析 时间序列异常检测 1 2 3 海量时间序列 业务场景复杂 规则配置繁琐 如何找到通用的解决方案?

11.单维时间序列分析 规则类告警策略 最大值告警 最小值告警 波动率告警

12. 单维时间序列分析 无监督异常检测算法 (自编码器) 原始数据 生成数据

13.单维时间序列分析 无监督异常检测算法 (N-Sigma)

14.单维时间序列分析 有监督异常检测算法 (特征工程) 时间序列的统计特征 时间序列的拟合特征 时间序列的分类特征 • 最大值,最小值,值域 • 移动平均算法 • 熵特征 • 均值,中位数 • 带权重的移动平均算法 • 值分布特征 • 方差,偏度,峰度 • 指数移动平均算法 • 小波分析特征 • 同比,环比,周期性 • 二次指数移动平均算法 • 自相关系数,变异系数 • 三次指数移动平均算法 • 奇异值分解算法 • 自回归算法 • 深度学习算法

15.单维时间序列分析 有监督异常检测算法 (RF,GBDT,XGBoost,深度学习)

16.单维时间序列分析 时间序列异常检测整体流程 数据层 统计算法 无监督算法 有监督算法 人工标注 数据存储 输出疑似异常 输出疑似异常 特征工程 提升效果 数据提取 离线训练 实时计算

17.单维时间序列分析 打标工程

18.单维时间序列分析 腾讯 Metis 智能监控的功能特性(http://github.com/Tencent/Metis) 异常检测:提供率值检测和量值检测的接口; 特征提取:提供三类特征(统计,拟合,分类),特征维度>200,可以自定义特征; 异常查询:异常入库存储,提供管理,查询,检索,放缩功能; 人工标注:提供正负样本的标注工具; 样本管理:提供检索,图示,编辑,删除,导入等功能; 模型管理:提供模型训练,预测功能。

19.单维时间序列分析 腾讯 Metis 智能监控的页面

20.目录 01 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 04 Metis 的未来规划 展望未来

21.多维时间序列分析 业务埋点 监控系统 多维数据 异常检测 多维下钻 收集数据 指标展示 维度查询 检测异常指标 分析异常维度

22.多维时间序列分析 人工分析异常维度 1 2 3 判断时间序列是否波动 人工查找可疑维度 人工查找可疑元素

23.多维时间序列分析 智能多维下钻分析 1 2 发现问题 分析问题 数据存储 异常检测 正负样本 特征工程 有监督算法 多维时间序列 多模型融合 业务场景 连续特征 输出规则 离散特征

24.多维时间序列分析 智能多维下钻分析 (特征工程) 成功率 运营商 操作系统 客户端版本 网络类型 图片数量 99.9% 移动 安卓 XXX1 4G 3 90.1% 联通 IOS YYY2 WIFI 20 标签 特征1 特征2 特征3 ……. 特征n 0(异常) 1 1 0 3 1(正常) 0 1 0 20

25.多维时间序列分析 智能多维下钻分析 (决策树) 1 2 3 正负样本 特征工程 维度组合

26.目录 01 智能运维场景描述 整体介绍 02 单维时间序列分析 异常检测 03 多维时间序列分析 多维下钻 04 Metis 的研究方向 展望未来

27.腾讯 Metis 智能运维方向 异常检测 单指标异常检测,多指标异常检测 发现问题 根因分析 智能多维下钻分析,链路调用根源分析 分析问题 告警收敛 事件与事件,事件与时序,时序与时序 解决问题 日志分析 日志模板提取,日志异常检测,日志聚类分析

28.T HANKS 关注云加社区公众号