柯旻_阿里巴巴大数据智能运维实践

随着阿里数据的海量增长,需求更需要从多维度分析,使需求变得更加明确,在数据维护时越来越难,比如数据加工、重复劳动、加工链路长、出错概率高等问题,层出不穷。所以柯旻分享了阿里在同样的问题的时候的做法,更加快速,有效的解决运维难题
展开查看详情

1. E T B .N P U IT

2. E T . 阿里巴巴大数据智能运维实践 B N P U 柯旻(大舞) 阿里巴巴大数据运维总监 IT

3.个人介绍 柯旻(大舞) 阿里巴巴大数据运维总监 E T .N 2007-2010 (中国yahoo) 负责中国yahoo基础运维相关工作 (IDC/网络/硬件/SYS) U B 2011-至今主要负责整个阿里集团所有离线,流&批计算, 分析型数据库,算法平台等大数据平台公有云以及内部平 P 台的运维,运维产品开发,架构以及对外输出。支持10W+ IT 服务器的平台日常运营维护工作。 (hadoop/hbase/jstorm/odps/ads/blink/数据通道/GPU...等大 数据平台产品)

4.阿里巴巴运维演进史 高度自动化,精细化,精准 进一步固化运维常见场景, 化,通过大数据机器学习等 实现一体化监控,提升端到 技术以提供智能分析决策, 端运维能力,对运维服务集 运维能力服务化 通过标准化规范化,把组件 监控与运维流程相结合,批 中化管理 通过脚本代替手工维护模式 量自动化运维 平台化运维模式 智能、数据化运维模式 组件监控模式 流程化运维模式 运维v1.0 运维v2.0 运维v3.0 运维v4.0 l 具有图形力量面, l 脚本替代手工操作 l 实现了跨组件和系统化的 交互性好 一体化监控 l 与流程相结合,实 l 基础中间件统一提供服务 现一定自动化流程 丰富运维场景 化 自动+开放+智能 l 开发维护复杂 l 工具种类多,学习成本高 l 仍然需要人工决策 l 扩展性差 l 各工具自成体系,难以交互 l 对数据的应用程度不高,复 l 不免直观,易用差 l 覆盖了常用业务运维场景, 杂场景难以处理 无法满足个性化运维需求

5.规模增长 2009.4 2010.3 2010.7 2012.1 2012.10 2013.7 2014?

6.多维度海量数据

7.建 立运维 世 界 的 数 字 镜 像 运维数据仓库 Commands/Tools Based Operation -> SQL Based Operation

8.常见的运维数据 元数据 运行时 服务器 应用 • 元数据描述了对象的静态属性 集群 • 运行时描述了对象的动态状态 • 两者组合描述了运维世界 服务 网络

9. 1号交换机故障导致丢包 1号交换机故障导致丢包 运维世界->DB

10.数据分层设计 解决: • ODS(Operational Data Store) 如从DB、API、日志等系统抽取过来的数据 数据加工难 重复劳动 • DIM(Dimension) 加工链路长,出错概率高 如机器维度表、监控部署维度表等 • DWD(Data Warehouse Detail) DWS/ADS层(汇总/应用级数据) 基于ODS层,按照业务领域进行整合的明细数据 层 • DWS(Data Warehouse Summary) DWD层(明细层) 基于DWD的统计层,一般根据DWD的某个维度 来统计 ODS层(事实) DIM层(维度) • ADS(Application Data Service) 基于DWS、DWD的应用展示层;直接输出给应 用使用 • 运维场景对数据实时性的要求永远是贪婪的 • 需要根据真实的场景和需求,选择合适的时效性

11.书同文(语言) 车同轨(方法) 行同伦(模式)

12.异常检测 (Anomaly Detection) 业务层 涵盖从业务层到硬件底层几乎所有垂直领域 各种设备的管控,如空调、服务器、硬盘 各种软件应用的监控 软件应用层 各种业务指标的监控 一切需要监控且有监控数据的对象, 都可以使用异常检测来进行智能管控 容器和虚拟机 数据 Streaming data Log data 服务机及部件(如硬盘) Data in other formats 广义的异常检测包括: 网络 异常检测 异常预测 根因分析 数据中心基础设施(如冷却控制 系统)

13.异常检测的类型 • Fix 2 dims, and only focus on data in 1 dim – T: only consider time dim, 单一对象单一metric(即单个时间序列):spikes & dips、趋势变化、 范围变化 – M: only consider metric,找出不符合metric之间相互关系的数据 – O: only consider object,找出与众不同的对象 • Fix 1 dim, and focus anomalies in 2 dims – MT:固定对象,考虑多个时间序列(每个对应一个metric),并找出其相互变化方式不同的作为异常 – MO:不考虑时间特性,考虑多个对象且每个对象都可以用多个metric表示,如何从中找出不同的对象 – TO:多个对象单一metric,找出变化趋势不同的对象 metric • Find out anomalies in the (metric, object, time) 3d space – MTO:多个对象多个metric在不同时间的数据 我们重点考虑M, T和MT 三个维度按照优先级排列为M>T>O time

14.数据化运维案例——全链路分析诊断 结果报告 • 提供自助式全链路的诊断视角 • 通过一个作业的入口,关联延伸到整个系统的上下游 • 资源满足/配置检查/数据依赖/历史对比/长尾倾斜.... 任意机器进程 CPU消耗分析 毛刺图形 部分长尾 稀疏图形 资源争抢

15.数据化运维案例—硬件自愈 1数据采集链 路 Ø 10w级的服务器上部署硬件相关信息采集插 件,打印硬件状态日志 Ø 经过数据通道、流计算、OLAP系统,建立起了 一份实时硬件状态表 Ø Center程序通过定时运行SQL任务,使用规则 2建模预 判断硬件异常 测反馈 决策定义 决策 进程影响 进程影响时间 数据影响 数据影响时间 影响范围 重启服务 1 5 * 5 服务组件 3决策执行链 重新部署 1 5 * 0 服务组件 路 重载配置 0 0 * 0 服务组件 内核升级 1 5400 * 0 整机 1. 数据采集 重启机器 1 1200 * 1200 整机 2. 算法分析 进入无盘 1 1200 * 1200 整机 3. 决策执行 重新克隆 1 5400 * 永久 整机 Ø 一年处理20万次自愈事件 整机维修 1 345600 * 永久 整机 Ø 服务器可用率 99% 机器下线 1 永久 * 永久 整机 数据盘维修 0 0 disk: sdx 永久 部件 系统盘维修 1 345600 disk: sda 永久 部件

16.数据化运维案例—聚类异常检测 • 关于算法选择,Why DBScan? 基于密度的聚类算法,能够将具有足够高密度的区 域划分为簇,并在具有噪声的数据中发现任意形状 的簇 - 无需指定聚类组的数量 - 支持离群点的自动发现

17.数据化运维案例—聚类寻优 数据传输用户任务数量大,参数配置困难如何优化? 优化前大部分任务集中在5MB/s的低 效同步速度区间内,优化后大都在在 固定属性k-means聚类,找出每类的最佳配置 5~10Mb/s、10MB/s~50MB/s、 20W 30W 50MB~100MB/s的高速区间。 优化前平均速度2.28MB/s,优化后 15.9MB/s,均速直接提升7倍 调优表

18. 数据化运维案例—运筹优化 • 运维 – “运”-> 运筹 • 运维领域有较多的规划问题可以用运筹优化的方法来解决 ü 多集群容量均衡 ü 动态调整用户配额 ü 如何优化带宽 ü 任务参数智能优化 ü …… 线性规划

19.运维数据价值提取 数据化一切对象【全域数据】 结构化一切数据【知识图谱】 数据 知识 连接一切数据【运维搜索】 让数据说话【数据即视图】 数据清洗 价值提取 让数据流动【数据驱动业务】

20.数据化运维中台

21.DataOps • 定义: 把运维数据采集起来,深度挖掘运维数据的价值,从 系统“稳定性、成本、效率、安全”多个维度,为运维 技术 提供数据决策基础和依据。 算法 • 挑战: 数据 有效地收集、清洗 数据实效性、准确性 有序、有结构地分类组织和存储管理 用算法打通、连接,分析这些数据 有效、智能地将价值数据提炼、展示出来 新能源

22.智能化运维 DataOps AI AIOps 专 业 领 域 Domain Knowledge Supply Chain Power & Electric •事件关联/事件流图 Monitoring •知识图谱 Scheduling 智能感知 •智能预测 Network Operation & Maintenance 机 器 学 习 优 化 算 法 •无监督机器学习 Machine Learning Optimization •深度学习神经网络 智能决策 •规则&算法结合 Anomaly Detection Dynamic Programming Regression Inventory Control Classification Linear Programming •ChatOps + NLP Association Rule Analysis Nonlinear Programming Root Cause Analysis Simulation-Monte Carlo •无人值守 Analysis 智能执行 •高度自动化流程

23.自动化驾驶 V AIOps运维 无人驾驶 SAE 无人运维 L0-L5 SRE L0-L5 L0 无自动化 L0 人肉运维 • Human Ops L1 驾驶员辅助 L1 脚本化运维 • Script Ops L2 部分自动化 L2 工具化运维 • Tools L3 有条件自动驾驶 L3 平台型运维DevOps • Platform L4 高度自动驾驶 L4 数据化运维DataOps • 系统具备完全自动运维的能力 • 系统能够自动处理各种异常的场景 L5 完全自动驾驶 L5 智能运维 AIOps • 系统能够提供人机对话的方式与人 交互。

24.智能化不等于无人化

25. 欢迎加入我们!!! • 成熟的阿里大数据体系 • 运维的对象足够复杂 • 我们所运维的对象就是阿里大数据 • 数据的量级超乎想象 • 足够大的舞台 • 我们需要更高效、更智能

26.