微博广告运维与监控技术实战

朱伟老师从运维在广告体系中的价值、复杂业务场景下的运维建设、海量指标下的实时监控实战这三个方面来讲述微博广告运维与监控技术的实践经验,其中重点剖析了他们在监控报警、自动化、服务治理等方面遇到的困难和解决方案。

展开查看详情

1.微博广告运维与监控技术实战 演讲人:朱伟 全球敏捷运维峰会 广州站

2.朱伟 Kimi 微博广告运维团队负责人 《智能运维:从0搭建大规模分布式AIOps系统》作者之一 ◼ 服务托管与自动化运维 ◼ 可视化监控与报警 ◼ 服务治理与利用率提升 ◼ 负载均衡与域名管理 ◼ 业务可用性跟踪与提升 全球敏捷运维峰会 广州站

3.TABLE OF CONTENTS 大纲 • 运维在广告体系中的价值 • 复杂业务场景下的运维建设之路 • 海量指标监控平台Oops实践 全球敏捷运维峰会 广州站

4.运维体系发展阶段 全球敏捷运维峰会 广州站

5.运维在微博广告中的价值 业务 可用性 系统性能评估 提高效率 故障迅速定位 优化系统 应急事件处理 请求链路跟踪 代码快速迭代 指标走势预测 …… 全球敏捷运维峰会 广州站

6.TABLE OF CONTENTS 大纲 • 运维在广告体系中的价值 • 复杂业务场景下的运维建设之路 • 海量指标监控平台Oops实践 全球敏捷运维峰会 广州站

7.服务治理 全球敏捷运维峰会 广州站

8.服务治理 链路跟踪 减少故障 资源合理利用 性能优化 快速降级 平台化 自动化 快速变更 效率优化 智能化 快速扩容 全球敏捷运维峰会 广州站

9.服务治理 全球敏捷运维峰会 广州站

10.服务治理 100+服务 ◼ 服务多机房均衡部署 ◼ 多运营商分布 3+机房/运营商 ◼ 机房承载冗余 ◼ 流量分布均匀 1.5倍流量冗余 ◼ 上下游同机房请求 环境标准化 全球敏捷运维峰会 广州站

11.服务治理 某产品线性能压测 全球敏捷运维峰会 广州站

12.自动化运维平台 快速扩容 管理有序 快速降级 提高效率 快速变更 安全操作 全球敏捷运维峰会 广州站

13.自动化运维平台 Kunkka 全球敏捷运维峰会 广州站

14.自动化运维平台 ◼ 多环境编译 ◼ 自动打包 ◼ 自动化测试 ◼ 自动部署 ◼ 动态扩缩容 ◼ 多级审核 全球敏捷运维峰会 广州站

15.有效的报警 如何提高报警的有效性,减少误报? 全球敏捷运维峰会 广州站

16.有效的报警 全球敏捷运维峰会 广州站

17.全链路Trace系统 ◼ 日志格式与解析 全球敏捷运维峰会 广州站

18.全链路Trace系统 A pplication kafka Flink C lickH o u se Fileb eat ◼ 数据收集与处理 全球敏捷运维峰会 广州站

19.全链路Trace系统 ◼ 业务查询 全球敏捷运维峰会 广州站

20.全链路Trace系统 全球敏捷运维峰会 广州站

21.TABLE OF CONTENTS 大纲 • 运维在广告体系中的价值 • 复杂业务场景下的运维建设之路 • 海量指标监控平台Oops实践 全球敏捷运维峰会 广州站

22.监控平台的挑战 延迟 偏差 不稳定 全球敏捷运维峰会 广州站

23.监控平台的目标 全球敏捷运维峰会 广州站

24. 整体架构 Oops 全球敏捷运维峰会 广州站

25.自动化采集 全球敏捷运维峰会 广州站

26.自动化采集 ◼ 性能压测 ◼ 配置参数 • 单节点 • 1核CPU • flush.min_events • Snappy压缩 • close_inactive • kafka partition = 10 • scan_frequency • required_acks = 1 • ignore_older • clean_inactive • required_acks • bulk_max_size • 24000 TPS • compression • 27 Mb/s • 失败日志数为 0 全球敏捷运维峰会 广州站

27.配置化清洗 全球敏捷运维峰会 广州站

28.实时指标仓库 ◼ 不同时间粒度的查询 ◼ 不同业务维度的组合 ◼ 提高查询相应速度 ◼ 复杂业务逻辑定制 ◼ 数据复用 原始层 聚合层 全球敏捷运维峰会 广州站

29. 实时指标仓库 原始表 指定字段聚合 聚合表 全球敏捷运维峰会 广州站