- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
腾讯 吴树生 - 《腾讯织云智能监控实践》_部分1
展开查看详情
1 .《腾讯织云智能监控实践》 演讲者/吴树生
2 .监控困境
3 .告警,还是告警! 监控对象 监控系统 指标数 告警量 人均告警量 50W 20 300W 40000 100
4 .山穷水尽疑无路
5 .柳暗花明又一村 代码埋点 提炼指标 评审分级 DLP监控
6 .监控数据模型&存储
7 .KPI指标模型&存储 数据模型:时间、对象、特性、值 业务模型:单机、视图 架构特点: 1.数据层与应用层分离 2.使用统一的proxy-workers架构 3.数据计算层使用类MR方案 4.数据存储使用多阶hash共享内存
8 .OLAP多维数据模型&存储 数据模型:时间、维度1、维 度2…维度n、指标1、指标2… 指标n 选型出发点: 1. 性能:druid查询和写入性 能比impala高1个量级 2. 存储成本:druid基于网络 知识库的列存储,存储成本 比impala略低 3. 维护对象:druid有5个组件 优化点: 1. Realtime节点JVM调优,1 核2G,避免OOM 2. 增加Realtime节点容灾和减 少缓存时长 3. 冷热数据分离(热数据存储 2天,多份,SSD;冷数据 存储30天,2份,SATA)
9 . 日志模型&存储 数据模型:对象、时间、日志详情 [2018-01-04 09:28:53.893544|17452|140061442 799360|LM_INFO] <CProcCenter::onProcessor(timer)> load L5 dcid:dc02741, L5:664833 65536[NOSET] [2018-01-04 09:28:54.079791|17452|140061434 406656|LM_ERROR] [getiptest] modid:567681,cmd:13434880........
10 .监控平台
11 .服务端采集 intf SHM Agent 被动采集 主动探测 intf SNMP/IPMI Agent
12 .用户端采集 www.oa.com intf nginx 关注指标: 解析dom树耗时 CGI请求量 DNS查询耗时 白屏时间 CGI成功率 TCP链接耗时 domready时间 CGI响应时间 request请求耗时 onload时间 CGI响应时间分布
13 .监控数据处理平台 实时告警 告警 1.适配各种日志格式 mysql 策略 2.解决消息队列性能和可靠性问题 3.数据处理过程插拔式配置化设计 数据采集 流处理集群 Storm http 接 Rabbitm 统 翻 api 收 q+Mong 计 译 中转 自 svr oDB 计 SDK 定 算 义 index| filter name| dtype| spout 产品化 数据银行 落地存储 translate RESTf dvalue 监控 Data OLAP- 平台 ul TSDB DB aggregat Router API e bolt …. 数据 transmit 缓存
14 .监控平台架构 DLP关键指标 H5监控 CGI自动拨测 L5路由监控 容量 高负载 变更体检 模块调用监控 统一API monitor特性监控 哈勃多维监控 全链路日志 告警平台
15 .立体化监控 TEG服务监控: N: 网络监控 T K D 客户端(用户端) C: CDN监控 D: 数据层监控 R A S SNG服务监控: Y: 业务监控 F N GSLB R: 返回码监控 S: 测速系统 N F IDC C 自建CDN A: 自动化测试 M: 模块间调用 C: 组件监控 L F TGW/LVS 基础监控: L: 容量管理 M A C Y WEB层(Qzhttp/proxy) M C Y WNS P: 进程监控 F: 特性监控 M C Y 中间层(SPP/SF2) M 自研服务 移动端监控: T: 舆情监控 C F 数据层(redis/MySQL) D CKV/CDB/CMEM K: 卡慢监控 D: 多维监控 L P OS/服务器
16 .智能化开发实践
17 .开发经验 • 提出问题 • 算法预研 调研 论文、git 领域专 AI专家 家 实践 交流 应用专 算法专 家 家 • 工程化开 • 算法实现 发 &优化 验证
18 .项目经验 项目开发关键点 系统解剖 : 需求调研和方案设计 即时演示 : 功能项及时演示 进度跟踪 : 紧密跟踪、实时调整 质量控制:自动化测试&结项测试 解决方案 AI项目特点 目标分解:由易到难、由特化到泛 不确定性:算法、效果、时间不确定 化 多样性 :多种实现方式 对比开发:明确效果参照点,择优 录用
19 .AIOPS能力框架
20 .智能化应用