滴滴 来炜 - 《从标准到落地:数据驱动的风险防范体系建设》_部分1

展开查看详情

1.《从标准到落地:数据驱动的风险防范体系建设》

2.滴滴业务特点 滴滴的数据量化文化 运维和流程规范 变更信用分系统 风险量化体系建设

3.滴滴的业务特点 2012年成立 出⾏业务涵盖 • 飞速成长的6年 • 快车 • 公交 • 世界上成长最快的公司之⼀ • 专车 • 代驾 • 为逾4.5亿用户提供多样化的出 • 出租车 • 试驾 ⾏服务,日订单超过3000万次 • 顺风车 • 汽车后市场 • 企业出⾏ • 小巴 • 共享单车

4.数据量化文化:快速补齐基础能力,竞赛和量化加速成长 太阳花:用户体验竞赛 星辰花:稳定性竞赛 别乱花:效率竞赛 蓝莲花:运营竞赛 风铃花:安全竞赛 准确的数据量化机制

5.明确的竞赛规则和量化方式 - 星辰花 组委会:滴滴⼯程技术委员会 裁判:效能平台部 参赛⽅:所有服务稳定性相关团队 规则: 全平台稳定性目标: • 2016 : 99.9% 不可用时长少于40分钟/月 • 2017:99.95% 不可用时长少于21.9分钟/月 • 2018:99.98% 不可用时长少于8.76分钟/月 不可用时长计算: • 参赛业务线任⼀核⼼指标(呼叫量、应答量、支付量)下降超过10%的时间(T) • ⼀次故障中的全平台不可用时长消耗 = T x 受影响业务上周的单量占比 不可用时长分配: • 每个月的不可用时长按照各团队历史的表现情况、所负责服务稳定性维护难度、变更量等因素综合考虑 进⾏协商分配。 • 年初完成⼀次性分配,期间如需调整需要申诉并重新协商。

6.常态:稳定性数据跟踪记录

7.年度&季度:数据复盘 星辰花:稳定性竞赛

8.奖惩 故障等级: • p1-p5 根据影响划分 奖惩 : • P1事故:管理者罚⾦ + 团队⾦榴莲奖 • 表现优秀的团队可以获得基⾦奖励 + 荣誉勋章 • 以⼤会形式定期总结和颁奖

9.滴滴运维主要工作 指标: 可用性 指标: 单均成本 指标: NPS 稳定性 成本 体验 平台研发 流程规范 监控预案 运维安全 稳定性保障 风险管理 资源管理 容量管理 变更管理

10.量化的盲区:流程规范 流程规范通常面临的尴尬局面: • 短期内对⼤家的意识能起到整风运动式的效果,随着时间的推移约束就会弱化 关键原因: • 容易被遗忘,新⼈更不易理解和掌握 • 缺少达成程度的度量,不能随时了解风险的变化