- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
张岩 - 给中小公司落地DevOps实践之路
去哪儿运维开发总监张岩分享《给中小公司落地DevOps的十点建议》
展开查看详情
1 .给中小公司落地DevOps实践之路 演讲人:张岩 2019 中国数据智能管理峰会
2 .0. 是否需要实施DevOps 0.1 解决了什么问题? • 快速反应与可靠服务之间的冲突 • Dev 、QA、 Ops、PM 之间的利益冲突 • 服务故障、中断层出不穷,不停救火,不断填坑 • 沟通效率低下、技术债务累加、工时增长、质量下降 2019 中国数据智能管理峰会
3 .0. 是否需要实施DevOps 0.2 带来了什么问题? • 开发模式变化,初期效率可能会降低 • 需要构建新工具、系统,成本增加 • 团队无法达成共识,产生内耗 • 运维知识缺乏,需要学习或补充新人 2019 中国数据智能管理峰会
4 .1. 建立持续学习的企业文化 顶层意志,从自顶向下到全员自发 小步快跑,从局部到整体 持续优化,从最佳实践到制度规范 他山之石,从开源到自研 2019 中国数据智能管理峰会
5 .2. 找准切入点 选择要求“做的快”的项目 • 解决长期存在矛盾 —— 标杆意义 • 与业务保持契合 —— 互联网业务特点 • 收益直观 —— 价值可以被快速理解 输出成果:流程、规范、工具、需求 2019 中国数据智能管理峰会
6 .2. 找准切入点 选择乐于创新、接受变化的团队 • 快速启动 • 减少内耗 • 灵活机动 输出成果:组织结构 2019 中国数据智能管理峰会
7 .2. 找准切入点 选择价值可视、可理解、可度量的产品 • 模范作用 • 收益表现客观、直接 • 容易推广 输出成果:验收维度、标准 2019 中国数据智能管理峰会
8 .3. 自动化 & 流水线 基础 1: • 配置管理数据库(CMDB) • 计算资管管理平台(OpenStack) • IDC管理系统 & 硬件配置抓取 • 机器软件环境基线采集 • 工作流引擎 2019 中国数据智能管理峰会
9 .3. 自动化 & 流水线 基础 2: • 唯一应用标识 • 统一代码仓库和软件仓库 2019 中国数据智能管理峰会
10 .3. 自动化 & 流水线 基础 3: • 基础设施构建自动、流程、标准 创建应用 创建虚机 部署软件 创建账号 申请域名 反向代理 Portal QSRC QDeploy QAgent QDnsDB Openresty 2019 中国数据智能管理峰会
11 .4. 持续集成 & 安全部署 • 开发、测试、生产环境保证一致 • 统一代码仓库、统一软件仓库、统一镜像仓库 • 集成/部署自动化检查 • 禁用规则;质量检查(sonar) ; 发布测试;Codereview • 支持多种发布模式,降低风险 • 灰度、金丝雀、等 2019 中国数据智能管理峰会
12 .5. 快速、可靠的自动化测试平台 • 快速构建测试环境系统 - Noha • 自动化测试系统 - QTA • 代码覆盖率检查 • Mock平台 • API管理平台 – YAPI • 缺陷跟踪管理系统 – jira 2019 中国数据智能管理峰会
13 .6. 有效、准确的监控系统 指标监控 • 基础监控 – 设备基础指标CPU、内存、负载、硬盘… • 应用监控 – GC、线程数、延迟… • 业务监控 – PV、交易量、支付成功量 … 2019 中国数据智能管理峰会
14 .6. 有效、准确的监控系统 日志监控 • 访问日志 • 异常日志 • 业务日志 2019 中国数据智能管理峰会
15 .6. 有效、准确的监控系统 事件监控 • 运维变更事件 • 应用发布事件 • 配置变更事件 • 硬件故障事件 • 网络故障事件 2019 中国数据智能管理峰会
16 .6. 有效、准确的监控系统 报警 • 分级 – 不同级别报警策略不同 • 多通道 – IM、短信、电话 • 毛刺抑制 – 忽略闪爆 • 同类报警合并 – 大量报警自动合并 • 可追溯可检索 2019 中国数据智能管理峰会
17 .7. 故障快速定位 & 预测 • 故障发生之后快速定位 —— 减少平均修复时间(MTTR) • 把故障消灭在发生之前 —— 增加平均无故障工作时间(MTBF) • 从而提高应用可用度 —— 可用度 = MTBF / (MTBF + MTTR) 2019 中国数据智能管理峰会
18 .8. 降低变更风险 • 事先计划变更步骤 • checklist • 回滚错失 • 安全停止点 • 周知利益相关方 • 评审 2019 中国数据智能管理峰会
19 .9. 故障管理 建立制度 • 上报制度 • 定级标准 • 升级策略 故障review • 明确责任方、受影响方 • 限定期限内,双方一起review故障,查找原因 • 指定改进计划,并限定时间内完成改进 • 故障沉淀入案 故障演练 • 不定期进行故障演练。模拟故障 或 拔线测试 2019 中国数据智能管理峰会
20 .10. 信息安全全员化、日常化 • 使安全成为每个人工作的一部分 • 将安全性与CI/Cd集成 • 设置安全性相关监控、报警 • 杜绝认为对构建、发布流程的影响 • 关键流程需要人工审批并留痕可审计 • 减少对单点职能人/团队的依赖 2019 中国数据智能管理峰会
21 . THANK YOU! 2019 中国数据智能管理峰会