王超-运维场景下的数据运营化与智能化

下载 7

dbaplus社群

发布于

3272

人观看

#信息技术

运维的变革俨然已经不是一个新鲜观点了，王超老师类比工业发展的几个阶段，引出如今运维面对的智能化考验。在这场考验中，三个至关重要的角色：运维工程师、运维开发及运维算法工程师。他明确指出了各个角色必须掌握的技术与担负的责任，三者合一，解决智能运维在质量、成本、效率、安全上的关键问题。他还分别针对质量提高、成本优化及效率提升这三个目标分享了京东数科内部的典型案例，让听众受益匪浅。

展开查看详情

1 .运维场景下的数据运营化与智能化演讲人：王超全球敏捷运维峰会北京站

2 .关于我 14年~今京东数科应用架构部负责人 11年~14年人人网运维主管 08年~11年传统大型企业开发&运维传统运维自动化运维智能运维全球敏捷运维峰会北京站

3 . 目录 1 运维演进历程 2 智能运维技术实践 3 典型案例-质量提高 4 典型案例-成本优化 5 典型案例-效率提升全球敏捷运维峰会北京站

4 .让我们先看看工业的演进历程全球敏捷运维峰会北京站

5 . 手工作坊简单纯粹锻炼身体效率低下全球敏捷运维峰会北京站

6 .蒸汽机的出现 18世纪中期机器替代人力生产力提高工作细分资源消耗严重全球敏捷运维峰会北京站

7 .车间流水线的出现 19世纪20年代标准化零件流水线操作生产力大幅提高简单重复劳动工人成为工具全球敏捷运维峰会北京站

8 .工业3.0 全面信息化自动化控制供应链管理全球敏捷运维峰会北京站

9 . 工业4.0 物联网数据流动自动化人工智能全球敏捷运维峰会北京站

10 .让我们再看看运维的演进历程全球敏捷运维峰会北京站

11 . 手工操作时代 • 手工登录机器操作 • 优点 • 灵活 • 酷炫 • 缺点 • 依赖专家经验 • 容易出错 • 操作时间久全球敏捷运维峰会北京站

12 .自动化时代 • 开发自动化脚本 • 优点 • 效率提高 • 缺点 • 依赖开发能力 • 脚本和配置可能不一致全球敏捷运维峰会北京站

13 . 平台化时代 • 大量使用开源工具 • 系统间集成 • 参考DevOps/SRE等理论基础 • 优点： • 可靠，高效，信息集中管理 • 缺点 • 依然依赖人的经验全球敏捷运维峰会北京站

14 .智能化时代全球敏捷运维峰会北京站

15 .智能运维要解决的问题提高业务连续性合理使用资源容量规划，弹性调度监控分析，日志分析异常检测，根因分析质量成本性能分析，利用率分析告警收敛，瓶颈分析预算预估，成本分析提高人效安全防护无人看守，工单自动化效率安全网络防护，黑产识别智能问答，智能变更机房巡检，智能安防运行报告，统计分析全球敏捷运维峰会北京站

16 .智能运维中的各角色算法工程师 AIOPS 运维工程师运维开发全球敏捷运维峰会北京站

17 .运维开发工程师做什么? 前端平台开发后端运维开发数据采集大数据开发数据处理数据存储全球敏捷运维峰会北京站

18 .大数据技术-数据流动实时监控流式计算实时仪表盘监控大屏业务系统数据采集数据加工数据存储报表推送跑批计算让数据流动起来健康分析全球敏捷运维峰会北京站

19 .大数据技术-技术栈 -以开源技术举例让数据流动起来数据采集加工数据存储数据分析数据应用源系统 Hive 实时监控 Spark HDFS API Kafka 实时仪表盘 Hbase Phoenix 页面 Flume 监控大屏 Azkaban ES Impala MQ Sqoop 报表推送 TSDB 日志健康分析数据库全球敏捷运维峰会北京站

20 .运维数据集市全球敏捷运维峰会北京站

21 . 运维算法工程师做什么？全球敏捷运维峰会北京站

22 . 运维经验转化为运维模型业务理解数据处理模型学习模型应用业务数据数据特征模型模型模型运行分析获取分析工程训练评估部署监控 … 应工异无半有容自迭 AB 补归数平数统排时交评可结用单常监监监器动代健机检差一据稳据计序序互督督督估化部父测视果康器测值化采性周特特特特模模模指署模试化分集分期征征征征标析分人型型型型析析性全球敏捷运维峰会北京站

23 .基于规则的模型如：异常告警中，将告警原因与告警类型关联建立告警关联规则，进行异常检测。基于统计方法的模型以及基于机器学习方法的模型都是建立规则库的过程。基于规则的模型基于规则的模型更加倾向于一种表达方式。基于规则的模型很大一部分都是基于历史数据标记的情况下进行建立关联规则，对数据未标记的情况会缺乏讨论。全球敏捷运维峰会北京站

24 .基于统计方法的模型（1）基于参数检验的方式：假设采样数据中大部分为正常点，以数据点的均值、众数、中位数等作为正常点统计模型，当参数在正常点附近波动时，认为KPI正常,反之异常。（2）基于非参数检验方式：采用历史数据的分布函数和经验分布函数等作为正常模型，将新数据的分布与原始分布进行对比，分布一致则认为正常，否则异常。（3）将参数描述成时间序列: 对序列的相似性、周期性、线性/非线性相关、趋势、时频特征等进行建模，形成时序特征模型，当新数据不满足建立的特性模型时，KPI数据被判别成异常。基于统计方法的模型不足之处统计检验对分布、回归拟合基于统计方法的模型利用正常点数据占等存在假设，此方法针对多主导的特点来建立正常模型，忽略历史变量分析时扩展性较低；数据中异常点对于模型的影响，使得正常模型存在偏差，模型鲁棒性较差。全球敏捷运维峰会北京站

25 . 基于机器学习方法的模型机器学习最大的优点与基于统计方法的模型相同点不需要假定参数的分布或者参数之间的关系，都是通过历史数据建立KPI正常状态模型，直接通过学习的方法得到模型，对海量数据、与正常模型匹配判定KPI异常状态。高维数据、复杂场景等具有较强的适应性与扩展性。基于机器学习方法的模型主要分为三类：（1）基于已经标记异常的历史数据，采用监督学习的方法学习异常和正常群体的历史表现，进基于机器学习方法的行新数据监测时，可以通过模型输出异常情况。模型（2）基于无标记的历史数据分析，采用无监督的方法进行异常识别。比如，在进行高维度连续数据的异常检测时，可选用孤立森林算法，通过多棵iTree树形成森林来判断是否异常。（3）基于半监督的方法扩充标签样本库，尽快满足有监督学习方法的数据量级要求全球敏捷运维峰会北京站

26 . 统计算法&无监督算法&有监督算法离线训练分类器人工审核样本库统计算法&无监督算法特征工程有监督算法历史数据（人工打标）（时序特征计算）（训练） + 输出疑似异常群体（半监督扩充）模型部署在线检测及模型迭代特征工程有监督算法进行预测统计算法&无监督算法加载有监督数据提取（输出异常）模型（时序特征计算）输出疑似异常群体全球敏捷运维峰会北京站

27 . 模型评估模型效果测试（1）准确率：人工抽查，查看告警出来的时序序列和时间点是否准确通过打标告警验模型辅助工具：人工打标（2）召回率：人工从业务中选择一批异常的时间序列和相应的时间点，通过现有的模型作预测，看是否被召回辅助工具：样本库管理通过模型预测抽取异常验模型看是否被召回全球敏捷运维峰会北京站

28 .技术总览全球敏捷运维峰会北京站

29 . 目录 1 运维演进历程 2 智能运维技术实践 3 典型案例-质量提高 4 典型案例-成本优化 5 典型案例-效率提升全球敏捷运维峰会北京站

0点赞

0收藏

7下载