Go如何帮滴滴支撑海量运维场景

下载 3

快召唤伙伴们来围观吧
微博 QQ QQ空间 贴吧
文档嵌入链接
<iframe src="https://www.slidestalk.com/u39071/212Gogocnvip36974?embed" frame border="0" width="640" height="360" scrolling="no" allowfullscreen="true">复制
微信扫一扫分享
已成功复制到剪贴板

无厘头

发布于

4年前

646

人观看

#信息技术

⼤纲
• 海量运维问题域是什么样的
• 为什么选择 Go
• 构筑了什么样的运维平台体系
• 如何开始体系化平台的构建

展开查看详情

1 .Go如何帮滴滴支撑海量运维场景秦晓辉

2 .个⼈简介秦晓辉 18612185520，qinxiaohui@didiglobal.com 先后履职于百度、小米、⾦⼭云，开源互联⽹监控解决⽅案 Open-Falcon主程，Nightingale开源发起⼈之⼀，现在在滴滴负责产业云技术中⼼，推动滴滴中后台能⼒商业化输出

3 .⼤纲 • 海量运维问题域是什么样的 • 为什么选择 Go • 构筑了什么样的运维平台体系 • 如何开始体系化平台的构建

4 .海量运维问题域是什么样的

5 .海量运维问题域典型特点⼤量不同语⾔的服务⼤规模机器异地多个机房有物理机虚拟机容器多种运⾏环境⽹络分区多样各类开源中间件各类自研⼯具各种安全要求⼤量不同厂商的硬件⼤量过保更迭对接的⼈多角⾊分⼯细

6 .海量运维问题域典型问题统⼀服务治理困难机器环境各异⽹络抖动带宽争抢不同的运⾏环境如何提供统⼀的使用体验各种⽹络分区隔离各类中间件、自研平台均需构建运维体系完备的权限审计诉求每天都有各种硬件故障每天各种⼈追着你答疑提需求

7 .海量运维问题域典型解法在流量转发层做⽂章统⼀机器初始化、整包或镜像部署、静态编译页面和流程层面统⼀，底层驱动式设计⽹络分区代理、防⽕墙友好设计运维体系是平台核⼼+扩展共建的思路统⼀权限、统⼀日志、统⼀审计让业务能漂起来不依赖底层硬件自动化⼯单、知识库构建、答疑机器⼈能统⼀的统⼀、能规范的规范、再不济就是统⼀核⼼+周边扩展；分层⼤法；⼯具⽂化

8 .为什么选择 Go

9 .为什么选择 Go Go 自身特点 Go 周边⽣态资源占用少，适合开发agent 并发元语⽅便静态编译依赖少上⼿简单、风格统⼀

10 .构筑了什么样的运维平台体系

11 .运维平台体系构筑⽅向稳定性体系建设变更体系建设效率体系建设成本体系建设安全体系建设

12 . 稳定性体系建设构建⽅向标准规范落地⼿段评价体系

13 .稳定性体系建设相关平台⼯具举例风险预防量化监控健康分预案健康分变更信用分数据库信用分监控发现报警业务监控应用监控服务监控基础设施监控故障定位下钻全局灭⽕图事件墙容量⽔位接⼊层⼤盘预案⽌损故障自愈 911预案平台域名切流变更回滚管理问题复盘跟进可用性统计遗留项管理故障原因统计红⿊榜单

14 .变更体系建设构建⽅向和平台⼯具举例环境管理编译打包变更发布服务治理流量接⼊状态监控装机带外管编译构建服务部署名字服务四层接⼊指标采集理堡垒机跳板代码检测配置管理统⼀框架七层接⼊日志采集机权限分配机器初始化⼯作流管理数据配送调用链追踪域名管理告警策略制品镜像库编排调度限流熔断应用防⽕墙监控⼤盘

15 . 效率体系建设构建⽅向日常⼯作平台化如果还是找不到⽅向重复⼯作自动化问⼀下自⼰如下问题 • 固化的问题自动排查 • 哪些⼯作比较多？ • 固化的预案自动执⾏ • 哪些⼯作比较痛？ • 需求类⼯作自助执⾏ • 哪些⼯作可以做个平台让自⼰更快的完成？ • 巡检类⼯作周期执⾏ • 哪些⼯作可以做个平台让需求⽅自助完成？ • ⼯作流自动执⾏环节 • 哪些⼯作可以固化为脚本让上游自动触发？

16 .效率体系建设相关平台⼯具举例 ChatOps(各类聊天机器⼈) 知识库(有⼈⼀年写2000多篇wiki) 专业接客运维准⼊软件安装接⼊层变更服务下线区服务器重装服务器改名域名申请出⽹申请自监控告警相关服务治理相关 PaaS类资源操作：数据库、MQ、NoSQL 助区日志查询分析变更发布相关 IaaS类资源操作：虚机、云盘、对象存储基命令通道⽂件分发定时任务任务⼯作流座

17 .如何开始体系化平台的构建

18 .为你的运维平台化之路开个头

19 .滴滴夜莺简介 Github地址：https://github.com/didi/nightingale Nightingale（滴滴夜莺），衍⽣自Open-Falcon，融⼊了滴滴的最佳实践，如今是v3版本，已经从⼀款运维监控系统，演化为⼀款运维平台，除了具备监控告警的能⼒，也融⼊了部分CMDB、资产管理、命令执⾏、告警自愈的能⼒。运维平台体系化之路，可以用夜莺开个头 :-)

20 .

21 .

22 .

23 .

24 .夜莺当前产品能⼒运维⼯单系统变更管理稳定性体系其他⽅向机器环境初始化应用打包编译监控告警系统故障定位系统备份恢复系统应用变更发布日常维护类操作预案管理系统故障跟踪系统成本管理系统配置管理资产管理运维安全体系组织元信息资源元信息主机设备⽹络设备容量⽔位系统权限元信息服务元信息机柜机架位配件耗材⽹络访问质量统⼀底座：统⼀框架、统⼀用户、统⼀角⾊、统⼀审计下划线部分是当前夜莺已经具备的能⼒

25 .夜莺系统架构

26 .夜莺与Open-Falcon的对比对比项 Open-Falcon Nightingale • 部分模块存在单点问题，比如告警模块 • 所有模块全部⾼可用，挂掉⼀台机器服务⽆影响 • 使用数据库存储索引⽆法应对海量索引情况 • 自研索引或采用M3DB⽅案可以应对海量索引架构 • 只有rrd⼀种落盘存储机制，扩展能⼒较弱 • 使用驱动式设计，支持多种后端存储：M3、RRD、InfluxDB • 是个纯粹的监控，体系化考虑较少，缺少完备的 • 体系化程度⾼，以监控告警为核⼼主打能⼒，围绕着建立了部用户权限体系、资产管理、运维自动化、告警自分CMDB能⼒、完备的用户权限体系、命令通道和告警自愈等体系化愈等 • 整体设计较为简单，除了模板继承机制稍难理解， • 单就监控⽅面易用性更好⼀些，但是因为功能模块较多，学习整体容易上⼿起来确实有⼀定成本易用性 • 只有RRD⼀种落盘存储机制，存储⽅面扩展能⼒ • 使用驱动式设计，支持多种后端存储：M3、RRD、InfluxDB 较弱 • 可以复用Open-Falcon社区采集插件和Prometheus社区各类扩展性 • 社区贡献了部分监控采集插件，囊括各类常见对 Exporter，也提供Java、Go的埋点SDK，内置日志监控能⼒象的监控采集

27 . 夜莺与Zabbix的对比对比项 Zabbix Nightingale • 基于数据库来存储时序数据，容量上限较为明 • 使用驱动式设计，支持多种后端存储：M3、RRD、InfluxDB，显，TimescaleDB有待⽣产验证；拉取监控数据⽣产环境建议M3DB；近期数据在内存拉取监控数据比较快架构也比较慢 • 是个纯粹的监控，如果要做CMDB、运维自动化 • 体系化程度⾼，以监控告警为核⼼主打能⼒，围绕着建立了部相关支持，就需要和其他产品搭配使用了分CMDB能⼒、完备的用户权限体系、命令通道和告警自愈等体系化 • 对各类设备的监控支持较好，甚⾄AIX、BSD等 • 设备层面支持常规Linux、Windows、交换机、容器的监控都有支持 • 对应用业务侧监控支持较好，提供日志提取⽅式和SDK⽅式监控能⼒ • 对应用业务侧监控支持较差，主要是受限于数据结构 • 服务端和客户端采用C语⾔，研发⼈员较为难招 • 全部使用Go语⾔开发，和Kubernetes、Prometheus⼀个语⾔， • WEB端采用PHP语⾔，没啥说的，毕竟，这是世单语⾔系统⼆开难度小⼀些⼆开难度界上最好的语⾔

28 . 夜莺与Prometheus的对比对比项 Prometheus Nightingale • 设计上偏⼯具⼀些，采集策略、告警策略都是 • 产品化程度更⾼⼀些，所有操作都可以通过页面完成，使用复编辑yaml⽂件，对于多⼈同时使用的场景不够杂度上相对简单⼀些易用性友好 • 与Kubernetes结合紧密，比较容易采集容器相关 • 可以采集容器相关指标，对Kubernetes自身组件，需要借助监指标，比较容易制作集群监控⼤盘控插件实现采集，略微麻烦容器监控 • 对传统物理机、虚机的监控管理不够友好，特别 • 特别适合传统物理机、虚机的监控，树状机器分组机制非常灵是服务混部情况下，缺少易用的机器分组机制活，直观易用设备监控 • 是⼀个纯粹的监控告警系统，不处理其他运维场 • 体系化程度⾼，以监控告警为核⼼主打能⼒，围绕着建立了部景分CMDB能⼒、完备的用户权限体系、命令通道和告警自愈等体系化

29 .夜莺用户案例

0点赞

0收藏

3下载