蓝鲸研发运维技术PaaS体系实践

技术运营PaaS就是下边这样一个演进的过程:

从烟囱治理到PaaS技术框架,到组织转型,再到企业工具文化,基于PaaS框架,实现CI/CD/CO的研发、运维、运营全覆盖。而蓝鲸就是这样一个实现企业研发运营一体化体系的 PaaS 开发框架,它提供了 aPaaS(DevOps流水线、运行环境托管、前后台框架)和 iPaaS(持续集成、CMDB、作业平台、容器管理、数据平台、AI等原子平台)等模块,帮助企业技术人员快速构建基础运营PaaS。

展开查看详情

1.CI CD CO

2.支撑着半个腾讯的技术运营体系——蓝鲸PaaS 承载数百款 管控数十万 全球多云 培养数百蓝鲸运 孵化700+ 腾讯业务 台服务器 管控 维开发 应用系统 腾讯蓝鲸智云,简称蓝鲸,是腾讯互动娱乐事业群(Interactive Entertainment Group,简称IEG)自用的一套用于 构建企业研发运营一体化体系的PaaS开发框架,提供了aPaaS(DevOps流水线、运行环境托管、前后台框架)和 iPaaS(持续集成、CMDB、作业平台、容器管理、数据平台、AI等原子平台)等模块,帮助企业技术人员快速构建基 础运营PaaS。 腾讯蓝鲸智云秉承开放共赢的理念,以改变中国运维行业为起点,致力于推动国内企业借助研发运营一体化,低成本 实现企业IT经营管理模式升级和自主化。

3.蓝鲸目前在腾讯应用情况及发展方向 数据化 智能化 2015--2017 2017—现在 工具驱动运维:采用运维 数据驱动运维:基于大数据 机器驱动运维:基于智能算法 开发的模式,实现所有运维任 的接入、存储、分析技术,对运 的机器自我学习,训练机器智能运 务自动化、工具化、可视化。 维数据进行全面挖掘和分析,实 维模型,实现无人值守和智能的运 现数据驱动自动化运维。 维与运营。

4.运维转型,困难重重 4个转型的绊脚石 有几乎所有的业务类型 所有业务之间无关联 有重客户端游戏,网页游戏,各类官网,移动终端游戏, 300多款游戏相互之间是没有关系的。 大型游戏平台; 发布变更、故障处理等运维操作场景和操作流程是没有直 平铺式架构,拓扑关系复杂,模块数量上百,服务器数量 观规律的。 几千…… 有几乎所有的流行技术 业务操作单元暴涨 腾讯游戏300多款业务中,大多数是由世界各地开发商开发 服务器数量,也就是操作单元,有二十余万。 出来。 随着容器技术的普及,操作单元的数量还会暴涨。 所使用的开发语言、开发框架、操作系统、数据库等技术, 是没有直观规律的。 开发商很难为了运维体系而对架构或技术做大规模的修改。

5.蓝鲸进化第1步:抽象原子平台 获取新主 CMDB注 关闭故障 新机程序 获取资源 新建大区 主机注册 创建DB 机 册信息 大区入口 布署 业务配置 部署程序 文件修改 开新区 故障 替换 初始化数 大区服务 对外开放 据 蓝鲸配置平台 蓝鲸作业平台 重启 清理脏数 拉起业务 故障机回 测试验证 布署监控 对外开放 测试验证 据 进程 收 备份业务 选择发布 屏蔽监控 关闭游戏 程序&数 范围 告警 入口 据 停游戏进 程 版本 发布 更新程序 包 启动游戏 更新数据 对外开放 测试验证 进程 库

6.蓝鲸进化第2步:场景与原子的分离 故障机替换 新版本发布 基础监控系统 扩容管理系统 …… API Gateway 服务组件A 服务组件B 服务组件C 服务组件D IaaS管理 原子A 配置平台 原子B 作业平台 原子C 容器管理 原子D DB管理 原子E ……

7.什么叫 PaaS 故障机替换 新版本发布 基础监控系统 扩容管理系统 …… aPaaS(集成平台):开发框架(前后端)+工具流水线+运行环境托管 iPaaS:API Gateway(统一接入) 服务组件A 服务组件B 服务组件C 服务组件D 管控接入 原子A 配置平台 原子B 作业平台 原子C 容器平台 原子D 数据平台 原子E ……

8.蓝鲸进化第3步:平台化开发模式让运维应用自生长 传统开发模式 基于PaaS的开发模式 应用需求 应用需求 资源 环境 公共 资源 环境 公共 准备 构建 组件 准备 构建 组件 日志 应用 日志 应用 追溯 开发 追溯 开发 监控 代码 监控 代码 告警 部署 告警 部署 负责企业技术运营领域(CI、CD、CO)相关场景的系统构建,例如持续集成、日志分析、资 运维开发 源管理、版本发布、环境变更、监控处理、灾备切换、日常巡检、电子工单、运营分析、运营 管控、经营管理等。 落地企业工具文化。

9.回顾一下传统烟囱式模式的弊端 DevOps系统 发布系统 监控系统 数据分析 开发测试服 预发布环境 生产环境 监控曲线 编译构建 智能告警 实时视图 交叉分析 更新 更新 发布 展示 Jenkins 版本仓库 版本管理 配置存取 告警策略 管理 发送短信 报表编辑器 BI引擎 …… 调度引擎 容器管理 调度引擎 容器管理 实时计算 离线计算 实时计算 离线计算 文件传输 指令执行 文件传输 指令执行 数据采集 数据存储 数据采集 数据存储 版本 自助 临时 流程 老板 配置 周报 业务 ...... 视图 发布 活动 系统 视图 刷新 邮件 门户

10.十年发展 • 烟囱自动化 2008-2012 • 调度自动化 2012-2015 • 运维PaaS • 数据运维 2015-2017 • 运维运营PaaS • DevOps • AIOps 2017-2019 • 研发运维运营一体化

11.

12.CONTENTS 01 蓝鲸技术运营PaaS体系 02 企业落地解决方案 03 企业典型场景分享

13.嘉为蓝鲸:研发运营技术PaaS解决方案 嘉为蓝鲸研发、部署、运营统一门户 统一研发 统一运维 统一运营 嘉为蓝鲸研发、部署、运营自动化场景 统一DevOps 统一配置管理 统一监控&自愈自动化 运维自动化 ITSM流程管理 数据分析与运营决策 嘉为蓝鲸研发、部署、运营一体化平台 PaaS平台 iPaaS+aPaaS CI(持续集成) CD(持续部署) CO(持续运营) 持续集成平台 代码检查平台 管控平台 配置平台 作业平台 容器平台 数据平台 挖掘平台 企业IT对象:服务器、存储、网络、虚拟化、私有云、公有云、混合云、超融合、容器、业务应用、基础服务

14.嘉为蓝鲸CI:DevOps 解决方案 嘉为蓝鲸研运一体化门户 开发门户 测试门户 运维门户 项目经理门户 管理者门户 嘉为蓝鲸DevOps平台 开发场景 测试场景 运维场景 代码仓库 单元测试 编译加速 测试管理 接口测试 作业平台 配置管理 自动部署 系统监控 顾 代码检查 制品管理 版本体验 UI测试 测试数据 标准运维 环境管理 自动发布 应用监控 集 问 协同场景 自动化 度量场景 平台管理 运营场景 成 咨 实 询 需求管理 任务管理 缺陷管理 流水线 总体度量 项目管理 权限中心 运营分析 施 服 版本管理 迭代管理 WiKi管理 质量红线 项目度量 后台管理 凭证管理 …… 服 务 务 蓝鲸平台 集成平台 、ESB + API网关 敏捷协同 代码管理 流水线引擎 代码扫描 制品管理 自动化测试 度量数据 第三方工具 管控平台 配置平台 作业平台 数据平台 容器平台 数据平台 挖掘平台 ……

15.嘉为蓝鲸CD:ITOM融合的统一运维解决方案 统一运维门户 可视化大屏、统一报表、统一权限、移动运维 统一配置管理 运维自动化 数据中心自 应用运维自 业务运维自 跨系统编排 模型定义 拓扑视图 自动采集 配置维护 配置消费 CMP 动化 动化 动化 与调度 运维服务总线API Gateway、运维流程编排引擎 运行监控和故障管理 蓝鲸平台 运维流程管理 采集 存储 检测 告警 视图 PaaS平台:开发框架/API集成 变更 事件 问题 请求 知识库 作业 配置 基础监控 第三方监控接入 平台 平台 容器平台 SLA 服务目录 流程引擎 故障自愈 管控平台 流程融合 企业IT对象:服务器、存储、网络、虚拟化、私有云、公有云、混合云、超融合、容器、业务应用、基础服务

16.嘉为蓝鲸CO:数据分析与智能运营解决方案 积累全域数据 场 运维场景应用 营销场景应用 安全场景应用 测试场景应用 运营场景应用 其他场景应用 景 应 运维数据集 营销数据集 安全数据集 测试数据集 运营数据集 其他数据集 用 数据总线(数据交换、同步、共享) 中 间 数据集成 数据开发 数据管理 数据分析 数据挖掘 服 务 层 异构数据接入工具 全链路数据开发IDE 元数据管理工具 统一查询工具 可视化建模工具 数据清洗工具 FaaS | DataFlow 数据质量&安全监控 数据探索工具(BI) 样本标记工具 数据 GSEAgent 计 机 MySQL ES Redis Druid 采集 算 存 器 …… Beats 采集框架 引 …… 储 学 SDK 采集器 …… 擎 …… 习 TiDB TSDB HDFS 数据源

17.功能示例描述

18.CONTENTS 01 蓝鲸技术运营PaaS体系 02 企业落地解决方案 03 企业典型场景分享

19.1、CMDB整体逻辑架构 消费方(自动化、ITSM、监控) 配置数据消费 配置数据写入 数据分析 数据展示 配置管理门户 数据质量 外部对接 模型管理 实例管理 权限管理 拓扑管理 蓝鲸CMDB 业务管理 主机资源管理 操作审计 事件推送 自动采集(采集适配器) 配置数据 第三方采集器 外部数据源 蓝鲸Agent 配置数据 …… AIX linux win 应用 中间件 数据库 存储 虚拟化平台

20.功能示例

21.2、监控整体逻辑架构 视图展示 监控大屏展示 监控拓扑展示 性能趋势展示 告警事件展示 自定义仪表盘 自定义应用拓扑 自定义监控大屏 服务能力 指标服务 日志服务 检测服务 告警服务 处理服务 指标管理 指标组合 日志检索 日志分析 静态阈值 动态阈值 告警收敛聚合 告警通知 故障自动处理 告警人工工单 数据存储 kafka Redis Beanstalkd InfluxDB ElasticSearch MySQL 监控采集 协议采集 Agent插件采集 第三方接入 HTTP(S) TCP/UDP SNMP JMX Agent 采集器 Exporter 脚本 API 数据库 监控对象 硬件服务器 网络 虚拟化 容器 OS 数据库 中间件 服务 应用

22.IT监控功能示例 Nginx监控 Apache监控 MySQL监控

23.故障自愈功能示例

24.3、自动化运维的演进路径 手工操作 脚本自动化 web自动化 调度自动化 无人值守

25.作业平台

26.跨系统流程编排服务