施立 - 阿里搜索数据化DevOps和AIOps的探索与实践

阿里巴巴搜索事业部技术专家施立分享《阿里搜索数据化DevOps和AIOps的探索与实践》

展开查看详情

1. 阿里搜索数据化DevOps和AIOps 探索和实践 演讲人:隐元 2019 中国数据智能管理峰会

2.Agenda 1. kmonitor 概述 2. 运维大数据平台 3. AIOPS探索 2019 中国数据智能管理峰会

3.Why write 5 millions p/s 99.999% read 10 thousand p/s 100 thousand dimension 2019 中国数据智能管理峰会

4.监控数据平台总结 运维数据仓库 基于大数据的 • Metric • 过去,现在,未 • Event 来 基于算法的 • Log • 数据标准统一 • 发现问题 特点 • 数据种类丰富 • 诊断问题 • 面向机器,面向管控 • 优化建议 • 决策建议 基于管控的 Razor + Apack 目标 • 可重入 • 助力运维能力升级 Action+Diagnose+管控 • 算法服务框架 • 自我保护 • 助力管控能力升级 • 时序数据分析 • 从手工处理到自愈 • 反馈和自动调优 • 诊断经验沉淀 • 算法持续迭代 2019 中国数据智能管理峰会

5.kmonitor overview 2019 中国数据智能管理峰会

6.异构数据源采集 Docker Log SDK plugins 日志ETL : select sum(line[4]) tag(cluster, line[2][4], scene_id, line[3] where line[6] > 3 and line[7][1] != “heart beat”) 2019 中国数据智能管理峰会

7.时序数据库演进 2019 中国数据智能管理峰会

8.海量指标存储Gnomon(分布式Influxdb) 5000w/s points scale out query ms latency 2019 中国数据智能管理峰会

9.AIOps平台Razor OPS UDF Blink Job 规则报警 10w + rule DataPoints DownSample GroupBy Arithmetic stream 异常检测 1w + rule Event 巡检任务 定时batch TSDB 容量规划 OpenTsdb Query 统一表示 AIOPS Serverless Platform 2019 中国数据智能管理峰会

10.Why AIOPS AIOPS意义:利用算法的能力进一步提升系统效率,降低成本 2019 中国数据智能管理峰会

11.基于分解的异常检测算法 vs. 基于预测的算法 2019 中国数据智能管理峰会

12.RobustSTL 2019 中国数据智能管理峰会

13.异常检测 时序数据 异常检测自动调优流程 2019 中国数据智能管理峰会

14.尖峰&深谷异常 2019 中国数据智能管理峰会

15.均值变化 2019 中国数据智能管理峰会

16.异常检测产品化 2019 中国数据智能管理峰会

17.异常检测-现状 • 上线tisplus及tpp等头部业务5k+条核心指标,日均 调用量500w+ • 相比规则,报警量减少97%,避免了大量误报, 依据1000+(标注次数)人工标注,准确率和召回 率均>90% • 针对周期性,稀疏数据,均值变化做到了比较好 的识别和处理 2019 中国数据智能管理峰会

18.通用的AutoScale 2019 中国数据智能管理峰会

19.我们的AutoScale 2019 中国数据智能管理峰会

20.弹性Quota 2019 中国数据智能管理峰会

21.部署优化容量管理 2019 中国数据智能管理峰会

22. THANK YOU! 2019 中国数据智能管理峰会

数据连接未来!围绕Database、Bigdata、AiOps的企业级专业社群。行业大咖、技术干货,每天精品原创文章推送,每周线上技术分享,每月线下技术沙龙,受众20W+。