滴滴 来炜 - 《从标准到落地:数据驱动的风险防范体系建设》_部分1

运维工作中,通常会通过制定标准来预防风险、沉淀经验以及和周边团队形成共识。但常出现的情况是标准的影响会随着时间而减小,甚至被遗忘抛弃。一个较好的解决办法是将标准落地到各个平台,由平台来保证标准的执行。但这也有一些难以解决的问题: 标准有控制不了的部分:有一部分风险是标准无法控制的,比如一个业务线频繁的出现上线回滚,但标准并不能规定上线不能回滚或回滚的比例,这样的业务线我们如何驱动他们自省? 标准有弹性的部分:标准中通常也有一些需要人为拿捏的部分,比如变更在灰度阶段的暂停检查时长,通常是越长越安全,但平台通常只能约束到一个固定值。如何驱动大家做更充分的检查呢? 标准有被打破的特殊情况:比如标准规定禁止在业务高峰期变更,但由于紧急的问题修复或业务需要,又必须临时批准部分操作,这样的操作风险如何控制? 缺少风险的全局视图:通常SRE在push业务线做标准改进和控制的时候都只能针对一些局部进行推进,同时业务线的负责人也看不到全局的情况和风险的严重程度,因此推动较为困难,如何破解? 基于以上问题,滴滴建立了一套完善的风险量化体系,通过自动采集用户的平台操作数据、运维数据并自动计算量化出每个业务线的运维风险,落地到一个具体的分数,最终形成排名和竞赛机制,以达到促进标准长效执行的目的。本主题将重点介绍滴滴如何建设这套运维风险量化体系并成功运转长期有效降低业务运维风险的实践,同时还将分享建设和落地这套风险量化体系的实践心得。
展开查看详情

1.《从标准到落地:数据驱动的风险防范体系建设》

2.滴滴业务特点 滴滴的数据量化文化 运维和流程规范 变更信用分系统 风险量化体系建设

3.滴滴的业务特点 2012年成立 出⾏业务涵盖 • 飞速成长的6年 • 快车 • 公交 • 世界上成长最快的公司之⼀ • 专车 • 代驾 • 为逾4.5亿用户提供多样化的出 • 出租车 • 试驾 ⾏服务,日订单超过3000万次 • 顺风车 • 汽车后市场 • 企业出⾏ • 小巴 • 共享单车

4.数据量化文化:快速补齐基础能力,竞赛和量化加速成长 太阳花:用户体验竞赛 星辰花:稳定性竞赛 别乱花:效率竞赛 蓝莲花:运营竞赛 风铃花:安全竞赛 准确的数据量化机制

5.明确的竞赛规则和量化方式 - 星辰花 组委会:滴滴⼯程技术委员会 裁判:效能平台部 参赛⽅:所有服务稳定性相关团队 规则: 全平台稳定性目标: • 2016 : 99.9% 不可用时长少于40分钟/月 • 2017:99.95% 不可用时长少于21.9分钟/月 • 2018:99.98% 不可用时长少于8.76分钟/月 不可用时长计算: • 参赛业务线任⼀核⼼指标(呼叫量、应答量、支付量)下降超过10%的时间(T) • ⼀次故障中的全平台不可用时长消耗 = T x 受影响业务上周的单量占比 不可用时长分配: • 每个月的不可用时长按照各团队历史的表现情况、所负责服务稳定性维护难度、变更量等因素综合考虑 进⾏协商分配。 • 年初完成⼀次性分配,期间如需调整需要申诉并重新协商。

6.常态:稳定性数据跟踪记录

7.年度&季度:数据复盘 星辰花:稳定性竞赛

8.奖惩 故障等级: • p1-p5 根据影响划分 奖惩 : • P1事故:管理者罚⾦ + 团队⾦榴莲奖 • 表现优秀的团队可以获得基⾦奖励 + 荣誉勋章 • 以⼤会形式定期总结和颁奖

9.滴滴运维主要工作 指标: 可用性 指标: 单均成本 指标: NPS 稳定性 成本 体验 平台研发 流程规范 监控预案 运维安全 稳定性保障 风险管理 资源管理 容量管理 变更管理

10.量化的盲区:流程规范 流程规范通常面临的尴尬局面: • 短期内对⼤家的意识能起到整风运动式的效果,随着时间的推移约束就会弱化 关键原因: • 容易被遗忘,新⼈更不易理解和掌握 • 缺少达成程度的度量,不能随时了解风险的变化