陈林博 - 智能运维在金融核心领域的研究与应用

中国证券登记结算公司智能运维负责人陈林博博士分享《智能运维在金融核心领域的研究与应用》

展开查看详情

1. 智能运维在金融核心领域的 研究与应用 演讲人:陈林博 博士 2019 中国数据智能管理峰会

2. 01 背景介绍 02 智能运维研究 03 智能运维应用实践 04 智能运维实施路径 2019/7/22 2 2019 中国数据智能管理峰会

3.架构特色 2019 中国数据智能管理峰会

4.运维三大挑战 安全运行 • 专有、封闭、集中->国产、开放、分布式 • 单数据中心->多数据中心 人力紧缺 • 系统管理:人管机器 • 值班运行:人盯系统 远场运维 • 值班操作繁琐重复、夜班值守压力增大 • 数据中心地点偏僻、远程运维需求迫切 2019 中国数据智能管理峰会

5. 智能运维关键问题 定义、特点、优势劣势、 产学研现状、关键技术 基础 研究 提出下一步实 实施 战略 引入智能运维所 策略 目标 应达到的目标 施方针与路径 智能 运维 技术 应用 架构 场景 所处位置、系统架构、功能组件 结合战略目标,寻找合适场景 2019 中国数据智能管理峰会

6. 01 背景介绍 02 智能运维研究 03 智能运维应用实践 04 智能运维实施路径 2019/7/22 6 2019 中国数据智能管理峰会

7.智能运维 (Artificial Intelligence for IT Operations, AIOps) ◼ 运维 是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事 件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用 的状态。 2019 中国数据智能管理峰会

8.智能运维 (Artificial Intelligence for IT Operations, AIOps) ◼ 运维 是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事 件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用 的状态。 2019 中国数据智能管理峰会

9.智能运维 ◼ 运维 是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事 件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用 的状态。 2019 中国数据智能管理峰会

10.智能运维 ◼ 运维 是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事件预 警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用的状态。 1.0 手工运维 2.0 自动化运维 3.0 智能运维 • 人工监控、人工 • 利用脚本和程序 • 通过人工智能算法 决策、手工实施 完成重复性、大 自动从海量数据中 • 特点:运维人员 规模、批量化的 学习总结规则,模 手工完成,低效; 工作 拟人类作出决策 成本随系统规模 • 特点:减少人力 • 特点:由人工智能 增加而线性增长 成本、提高运维 替代人类做决策 效率 2019 中国数据智能管理峰会

11. 优缺点对比 智能运维将人工智能科技融入运维系统,增强了传统运维能力,能有效运维大 规模复杂系统,减轻人的负担。 手工运维 自动化运维 智能运维 自动分析处理事件,将多种自动化工具实现联动, 运维效率 受限于人为因素,运维效率较低 部分操作自动化后,运维效率较高 运维效率高 手工运维时处理异常效率低,系 得益于自动化工具,异常处理与恢复 采用智能分析、预警、决策等手段,异常处理效率 系统可用性 统可用性相对较低 速度较快,系统可用性相对较高 高,甚至可规避异常,系统可用性高 将重复性操作实现为自动化工具,采 结合自动化工具,并采用多种策略使用工具,高可 系统可靠性 手工运维时系统的可靠性较低 用自动化运维时系统可靠性较高 靠性 需掌握多个系统的运维知识和操 需对自动化工具有一定掌握,学习难 故障分析、预警及异常处理可由智能运维自动实现, 学习成本 作指令,学习难度高、成本高 度较高、成本较高 学习难度与成本低 建设运维的工具成本低,可采用 系统自带的运维命令。但对复杂 建设自动化运维的成本较高,投入运 建设与使用成本 智能运维的建设成本较高,投入运维的人力成本低 系统的运维需投入大量的人力, 维的人力成本则相对较低 人力成本高 在互联网企业、金融行业得到广泛应 运维基础手段,应用广泛,但不 新技术,目前有部分金融企业、互联网企业开展研 应用范围 用,适用于集群系统、服务器数量一 适用于分布式、大规模系统运维 究与实践,适用于大规模分布式系统运维 般的分布式系统运维 2019 中国数据智能管理峰会

12. 创新触发期 期望膨胀期 冷静期 启蒙复苏期 稳定成熟期 2019 中国数据智能管理峰会

13.产学研现状 科 卡内基梅隆:Netflix合作 阿里云:智能故障管理平台 互 研 清华大学:交行/阿里/IBM 联 百度:单机房故障自愈系统 机 网 腾讯:哈勃大数据平台、织云智能监 构 南京大学:360/腾讯 控、蓝鲸智云监控 金 运维大数据:交行/中行 技 Splunk:大数据搜索与可视化 融 术 华为:FusionInsight 行 智能巡检:阳光保险/上海银行 厂 IBM:实时大数据分析驱动 业 容量评估:太平洋保险/招行 商 京东/IBM/国自:巡检机器人 2019 中国数据智能管理峰会

14. 核心技术组成 • 大脑:智能运维算法。它利用人工智能算法,根 据具体的运维场景、业务规则或专家经验等,对 运维事件进行分析、定位,并作出决策 智能运 维算法 • 手:自动化运维工具。 • 眼睛:运维大数据平台。 它基于确定逻辑的运维 它能采集、处理、存储、 工具,对技术系统实施 展示各种运维数据,感 运维大 自动化运 诸如运行控制、监控、 知与洞察技术系统 数据平 维工具 台 上线等系列处理操作 2019 中国数据智能管理峰会

15.运维大数据平台 运维数据是在日常技术系统运行维护过程中产生的数据,用以表述当前系统的 状态、事件、异常等信息,一般可分为动态数据和静态数据两类 系统日志 设备监控数据 应用日志 系统监控数据 日志数据 网络日志 数据库监控数据 设备日志 中间件监控数据 安全日志 监控数据 应用监控数据 安全监控数据 动环监控数据 环境监控数据 CMDB 统一告警时间 配置信息 变更管理 2019 中国数据智能管理峰会

16.运维大数据平台 搜索引擎可视化 智能运维分析 BI展现 Elasticsearch Kibana 数据展示层 指标预警、报警聚合 异常定位、故障自我修复 离线计算 实时计算分析 数据挖掘 统计分析 输 输 应用平台 数据计算层 入 出 数据接口 机器学习算法 分析结果文件 数据流 事件驱动 Hive Redis Mysql 数据存储层 ETL 数据组织存储 Spark sql 数据采集层 HDFS Storm/ 数据准实时获取、数据 Spark Streaming flume/sqoop 直接访问 /JDBC FTP/sqoop 分布式存储 数据中心数据源 层 (Hadoop) 系统监控数据 应用日志 巡检日志 LogStash 日志收集及处理 (flume) 性能监控数据 日志数据 监控数据 历史数据 非结构化数据源 实时事件日志 网络&设备 安全访问& 告警事件 各系统日志Logs 日志 审计日志 2019 中国数据智能管理峰会

17.智能运维算法 主体画像与知识图谱类 + 动态决策类 通过多种算法挖掘运维历史数据,从而得出运维主体画像,然后构建运维主体之间的关系,最终 形成运维主体的知识图谱 • 运维主体:系统软件、硬件及其运行状态,如指标、日志、事件、变更等 • 画 像:用以描述运维主体的自身属性,如容量画像、指标画像等 • 知识图谱:基于画像,用来描述主体之间相互关系,如故障失效传播链 举例:构建故障传播链,是对失效现象进行回本溯源的分析,查找引起该失效的可能的故 障原因。 主体画像与知识图谱 主体画像类 知识图谱类 日志正常 历史故障 应用健康 特殊日整 应用流量 自动化任 业务拓扑 故障传播 模式画像 工单画像 画像 体画像 画像 务脚本 自动构建 链构建 故障先兆 性能瓶颈 运维数据 交易链条 指标画像 物理拓扑 故障止损 容量画像 画像 画像 整体画像 画像 及聚类 自动构建 预案构建 2019 中国数据智能管理峰会

18.智能运维算法 智能运维研究-智能运维算法 主体画像与知识图谱类 + 动态决策类 在已经挖掘好的运维画像与知识图谱的基础上,利用实时监控数据作出实时响应与决策,甚至 预测未来一段时间内系统运行状态 举例:故障预测,基于历史经验的基础上,使用多种模型或方法对现有的系统状态进行分 析,判断未来某一段时间内发生失效的概率 举例: 单指标异常检测是对系统中突然出现的单个KPI性能指标的异常(如突增、突降、 抖动)自动判断和识别,检测出潜在的故障 动态决策 异常检测 故障定位 故障处置 故障规避 单指标异 多指标异 异常机器 多维数据 部署自动 迁移可行 智能瓶颈 容量预测 常检测 常检测 定位 定位 拦截 性评估 报表 文本日志 交易链条 变更故障 交易链条 弹性扩缩 变更风险 限流决策 故障预测 异常检测 异常检测 定位 定位 容决策 评估 2019 中国数据智能管理峰会

19.自动化运维工具 2019 中国数据智能管理峰会

20. 运维闭环 智能运维闭环: 告警 ⚫ 离线:分析构建运维主体画 异常检测 异常定位 修复建议 像与知识图谱 人工智能 运维人员 ⚫ 在线:利用主体画像与知识 根因分析 异常预测 专家知识 采取运 反馈 图谱分析处理实时日志信息,预 维手段 测、检测以及定位异常,执行自 监控信息 配置信息 修复软硬件故障 动化脚本将系统恢复到正常状态 变更信息 技术系统 变更 ⚫ 运维知识反馈:智能运维自 执行预案脚本 动从历史的运维操作中学习并总 技术系统 执行修复建议 执行预案脚本 结规律,增强运维决策能力 2019 中国数据智能管理峰会

21. 01 背景介绍 02 智能运维研究 03 智能运维应用实践 04 智能运维实施路径 2019/7/22 21 2019 中国数据智能管理峰会

22.战略目标 事前 事后 智能预警 快速定位 夜间 远程 无人值守 集中管理 2019 中国数据智能管理峰会

23.应用场景 智能预警 智能检测 ◼作业运行预测 ◼异常报警聚合 ◼最长路径分析 ◼智能异常检测 ◼指标预警 ◼故障根因分析 应用场景 智能值守 智能巡检 ◼值班操作智能化 ◼应用巡检智能化 ◼运维数据可视化 ◼机房巡检智能化 2019 中国数据智能管理峰会

24.智能预警 作业运行时间预测 ⚫ 基于历史运行信息,对批处理作业的运行时间进行预测 方法 效果 ◼ 基于作业历史运行数据,构 ◼ 60%的作业可建立回归预测模型 建作业运行时间的特征模型 ◼ 预测值误差在10%以内 ◼ 利用历史数据训练模型 ◼ 举例:某作业预测值的平均误差为9.21秒, ◼ 利用回归类算法预测当天作 误差在3.7%以内 业的运行时间 2019 中国数据智能管理峰会

25.智能预警 最长路径分析 ⚫ 结合作业运行时间的预测值,实时计算跑批过程中关注的作业最晚处理时刻 方法 效果 ◼ 以作业预测数据、作业关系 ◼ 预测结果与实际结果拟合度超过90% 为输入 ◼ 起点:处理前备份 ◼ 利用动态规划算法实时计算 ◼ 终点:处理结束 关键路径及关键完成时刻 ◼ 利用SPFA算法验证并修正 2019 中国数据智能管理峰会

26.智能预警 指标预警 是针对某一应用或系统,根据其历史运行的信息,以时间序列为轴,构建其正常运 行的基线,结合该应用或系统当前的运行状态、指标数值,判断是否出现异常。 ⚫ 指标是用以衡量应用系统各方面业务状态(业务指标)和运行状态(技术指标)的 自描述的标准或数据 ⚫ 举例:成交笔数、交易量; 未应答数,服务响应延迟时间,http请求状态等 2019 中国数据智能管理峰会

27.智能预警 指标预警平台 ⚫ 预警对象:技术指标和业务指标 ⚫ 指标类型:基于时间序列、基于时刻 ⚫ 预警阈值:固定类、变化类 2019 中国数据智能管理峰会

28.智能检测 异常报警聚合 是将冗余的报警信息进行聚合,将其处理成精简的报警信息 • 聚合相同时间段内多个关联性较强异常报警 • 挖掘历史报警数据中的关联关系,建立关联的报警策略列表 • 重新回顾报警策略,将报警关注度较低的报警策略剔除 故障根因分析 是基于准确报警,分析查找异常发生原因,定位故障点。它是对异常报警聚合、 故障失效传播链的一次综合应用。 历史日 志信息 检测器 故障 案例 特征 机器学习 实时日 检测器 特征 异常分类器 检测结果 志信息 2019 中国数据智能管理峰会

29. 智能值守 值班操作智能化 ⚫ 基于基线的报警确认 ⚫ 利用聚类算法、孤立森林 的报警分类与识别 ⚫ 异常处理智能化 运维数据可视化 ⚫ 丰富监控对象 ⚫ 提升数据的可视化程度 ⚫ 与现有监控相集成 2019 中国数据智能管理峰会

数据连接未来!围绕Database、Bigdata、AiOps的企业级专业社群。行业大咖、技术干货,每天精品原创文章推送,每周线上技术分享,每月线下技术沙龙,受众20W+。