监控系统经历大数据转型后迎来AI浪潮。这个主题分享腾讯织云监控的演进过程和考量因素。结合实际案例场景展示织云从用户端到IAAS层的立体化监控理念和数据化DevOps理念。同时分享织云在AIOps领域的智能检测、根因分析和ROOT根源分析实践场景,展望未来监控转型方向。

注脚

展开查看详情

1.《腾讯织云智能监控实践》 演讲者/吴树生

2.监控困境

3.告警,还是告警! 监控对象 监控系统 指标数 告警量 人均告警量 50W 20 300W 40000 100

4.山穷水尽疑无路

5.柳暗花明又一村 代码埋点 提炼指标 评审分级 DLP监控

6.监控数据模型&存储

7.KPI指标模型&存储 数据模型:时间、对象、特性、值 业务模型:单机、视图 架构特点: 1.数据层与应用层分离 2.使用统一的proxy-workers架构 3.数据计算层使用类MR方案 4.数据存储使用多阶hash共享内存

8.OLAP多维数据模型&存储 数据模型:时间、维度1、维 度2…维度n、指标1、指标2… 指标n 选型出发点: 1. 性能:druid查询和写入性 能比impala高1个量级 2. 存储成本:druid基于网络 知识库的列存储,存储成本 比impala略低 3. 维护对象:druid有5个组件 优化点: 1. Realtime节点JVM调优,1 核2G,避免OOM 2. 增加Realtime节点容灾和减 少缓存时长 3. 冷热数据分离(热数据存储 2天,多份,SSD;冷数据 存储30天,2份,SATA)

9. 日志模型&存储 数据模型:对象、时间、日志详情 [2018-01-04 09:28:53.893544|17452|140061442 799360|LM_INFO] <CProcCenter::onProcessor(timer)> load L5 dcid:dc02741, L5:664833 65536[NOSET] [2018-01-04 09:28:54.079791|17452|140061434 406656|LM_ERROR] [getiptest] modid:567681,cmd:13434880........

10.监控平台

11.服务端采集 intf SHM Agent 被动采集 主动探测 intf SNMP/IPMI Agent

12.用户端采集 www.oa.com intf nginx 关注指标: 解析dom树耗时 CGI请求量 DNS查询耗时 白屏时间 CGI成功率 TCP链接耗时 domready时间 CGI响应时间 request请求耗时 onload时间 CGI响应时间分布

13.监控数据处理平台 实时告警 告警 1.适配各种日志格式 mysql 策略 2.解决消息队列性能和可靠性问题 3.数据处理过程插拔式配置化设计 数据采集 流处理集群 Storm http 接 Rabbitm 统 翻 api 收 q+Mong 计 译 中转 自 svr oDB 计 SDK 定 算 义 index| filter name| dtype| spout 产品化 数据银行 落地存储 translate RESTf dvalue 监控 Data OLAP- 平台 ul TSDB DB aggregat Router API e bolt …. 数据 transmit 缓存

14.监控平台架构 DLP关键指标 H5监控 CGI自动拨测 L5路由监控 容量 高负载 变更体检 模块调用监控 统一API monitor特性监控 哈勃多维监控 全链路日志 告警平台

15.立体化监控 TEG服务监控: N: 网络监控 T K D 客户端(用户端) C: CDN监控 D: 数据层监控 R A S SNG服务监控: Y: 业务监控 F N GSLB R: 返回码监控 S: 测速系统 N F IDC C 自建CDN A: 自动化测试 M: 模块间调用 C: 组件监控 L F TGW/LVS 基础监控: L: 容量管理 M A C Y WEB层(Qzhttp/proxy) M C Y WNS P: 进程监控 F: 特性监控 M C Y 中间层(SPP/SF2) M 自研服务 移动端监控: T: 舆情监控 C F 数据层(redis/MySQL) D CKV/CDB/CMEM K: 卡慢监控 D: 多维监控 L P OS/服务器

16.智能化开发实践

17.开发经验 • 提出问题 • 算法预研 调研 论文、git 领域专 AI专家 家 实践 交流 应用专 算法专 家 家 • 工程化开 • 算法实现 发 &优化 验证

18.项目经验 项目开发关键点 系统解剖 : 需求调研和方案设计 即时演示 : 功能项及时演示 进度跟踪 : 紧密跟踪、实时调整 质量控制:自动化测试&结项测试 解决方案 AI项目特点 目标分解:由易到难、由特化到泛 不确定性:算法、效果、时间不确定 化 多样性 :多种实现方式 对比开发:明确效果参照点,择优 录用

19.AIOPS能力框架

20.智能化应用