- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
6.AIOps与ClickHouse的深度碰撞-高鹏
AIOps与ClickHouse的深度碰撞
内容介绍
随着互联网架构越发复杂,运维人员面临的监控挑战也越来越大,如何有效的迭代监控进化、推进业务优化,成为新的重任。#过去几年,我们使用大数据、统计学、机器学习算法,构建了行之有效的AIOps监控架构和系统,比较好的支撑了新浪内部的故障定位、根因分析和性能优化,这其中,ClickHouse又是我们的整个系统的基石。#本次分享,我将围绕AIOps在新浪的演进,同时结合ClickHouse的使用、运维、优化经验,给大家带来A(AI)与B(BigData)的深度碰撞。
作者信息
高鹏 新浪高级DBA,运维中心智能数据分析平台、动态平台负责人。#在高可用架构设计、业务逻辑设计和优化方面,有较为丰富的经验。#目前负责新浪智能数据分析平台建设,致力于运维大数据价值挖掘,提升运维服务质量和产品用户体验度。#ClickHouse中国社区发起人之一,国内最早大规模使用ClickHouse的用户之一,对ClickHouse的架构、使用、优化,有较好的理解和实践经验。
展开查看详情
1 .AIOps与ClickHouse的深度碰撞 2021年03⽉ ⾼鹏
2 .⽬录 1. ClickHouse的引⼊ 2. ClickHouse的实践 3. AIOps与ClickHouse的碰撞 4. AIOps的落地 5. 探讨
3 .⽬录 1. ClickHouse的引⼊ 2. ClickHouse的实践 3. AIOps与ClickHouse的碰撞 4. AIOps的落地 5. 探讨
4 .ClickHouse的引⼊ about me MySQL DBA => 数据分析 到底有没有好的OLAP产品? 当线上的MySQL出现了慢查询……
5 .ClickHouse的引⼊ 穷⽽思变 问题: 如何实现百维、亿级、秒级数据分析 新浪新闻APP APM管理
6 .ClickHouse的引⼊ 传统⼿艺 Hadoop ELK 架构简单 Spark:计算引擎 链路复杂 DSL反⼈类 Hive:数据仓库 速度奇慢 资源永不够 MySQL:数据加速 出错难修 ⾮本职⼯作
7 .ClickHouse的引⼊ 传统⼿艺 Hadoop ELK ⼈⼒成本⾼ 机器成本⾼ 技术难度⼤ 速度还慢
8 .ClickHouse的引⼊ ClickHouse的结缘 Percona对ClickHouse的推⼴ Percona与Altinity的关系
9 .ClickHouse的引⼊ ClickHouse的结缘 ClickHouse的发展历程
10 .ClickHouse的引⼊ ClickHouse的结缘 • 单机写⼊峰值100w • 数据压缩3-10倍 • 查询性能碾压开源、商业产品
11 .ClickHouse的收益 某APM产品示例 某APM指标数据
12 .ClickHouse的收益 某APM产品示例 某后端服务质量监控
13 .⽬录 1. ClickHouse的引⼊ 2. ClickHouse的实践 3. AIOps与ClickHouse的碰撞 4. AIOps的落地 5. 探讨
14 .ClickHouse的收益 成本 效率 ⽤户体验 • SQL • 查询速度:远超Hive/ES • 存储成本:ES的1/30 • 开发:彻底解决⽇志存 • 开发效率:使⽤SQL,替代 放难题,随便打,读写 • 计算成本:利⽤率极⾼ Spark逻辑,数据链路变短 都不会成为瓶颈
15 .ClickHouse的实践 20台机器 1300亿/天 3kw Query /天 搞清定位 ⽤其所⻓
16 .ClickHouse的实践 分析MySQL慢查询 clicktail https://www.percona.com/blog/2018/02/28/analyze-raw-mysql-query-logs-clickhouse/
17 .ClickHouse的实践 as TSDB 资源限制 应⽤取舍 ⾃底向上的优化 物化视图 字典拓展宽表 LowCardinality SSD+HDD CPU适配 内存带宽适配
18 .⽬录 1. ClickHouse的引⼊ 2. ClickHouse的实践 3. AIOps与ClickHouse的碰撞 4. AIOps的落地 5. 探讨
19 .AIOps与ClickHouse的碰撞 外⾏眼中的AI运维 运维眼⾥的传统运维
20 .AIOps与ClickHouse的碰撞 “AIOps是Gartner(⾼德纳,IT咨询公司)在2016年 提出的概念,AIOps即 Arti cial Intelligence for IT Operations,智能运维,将⼈⼯智能应⽤于运维领域,基于已 有的运维数据(⽇志、监控信息、应⽤信息等),通过机器学 习的⽅式来进⼀步解决⾃动化运维没办法解决的问题 ” fi
21 .AIOps与ClickHouse的碰撞 ⼿⼯运维 ⾃动化运维 智能运维
22 .AIOps与ClickHouse的碰撞 ⼿⼯运维 ⾃动化运维 ⼤数据运维 智能运维
23 .AIOps与ClickHouse的碰撞 精细化运营 成本优化 智能运维 数据化运营 服务⾃治 问题关联 ⼤数据运维 问题分析 问题定位 问题发现
24 .AIOps与ClickHouse的碰撞 数据存储 数据检索 数据观察 异常报警 异常分析 ➡ 海量数据存储 ➡ 秒级查询 ➡ 图表丰富 ➡ 灵活 ➡ 根因分析 ➡ 吞吐量10W以上 ➡ 快速聚合 ➡ 可定制化 ➡ 通⽤ ➡ 关联分析 ➡ 成本可控 ➡ 功能丰富 ➡ 可交互 ➡ 准确
25 .AIOps与ClickHouse的碰撞 数据存储 数据检索 数据观察 异常报警 异常分析 ➡ Isolation Forest ➡ K-means ➡ 关联规则 ➡ DBScan ➡ 全链路系统 ➡ DTW ➡ STL
26 .⽬录 1. ClickHouse的引⼊ 2. ClickHouse的实践 3. AIOps与ClickHouse的碰撞 4. AIOps的落地 5. 探讨
27 .AIOps的落地 落地的思路 Data science produces insights 数据科学产⽣洞⻅ ⼯具的定位 Machine learning produces predictions 机器学习做出预测 Arti cial intelligence produces actions ⼈⼯智能⽣成⾏为 What's the di erence between data science, machine learning, and arti cial intelligence? http://varianceexplained.org/r/ds-ml-ai/ fi ff fi
28 .AIOps的落地 落地的思路 软件的“可观测”性 Peter Bourgon对于Metrics, tracing, and logging的分析 https://peter.bourgon.org/blog/2017/02/21/metrics-tracing-and-logging.html
29 .AIOps的落地 落地的实践 全链 路 智能 报警 构建之路 数据 分析 与可 视化 ⽇志 中⼼