蔡翔华 - Zabbix在Fintech环境中的最佳实践

招商银行技术经理蔡翔华分享《Zabbix在Fintech环境中的最佳实践》

展开查看详情

1.Zabbix在Fintech环境中的最佳实践 蔡翔华 2019 中国数据智能管理峰会

2. 蔡翔华 / Shawn CAI • GOPS金牌讲师 • Zabbix官方社区核心成员 • Zabbix认证专家(Zabbix Certified Professional) • Zabbix中文手册及EXIN Devops手册官方译者 • DevOps Master, ITIL, MCSE, RHCE, VCP • 8年四大及银行业IT基础架构经验 • 5年ZABBIX项目运维经验 • 全程主导参与招行卡中心统一监控平台的建设 2019 中国数据智能管理峰会

3. 目录 1 Fintech的挑战 2 Fintech环境下的监控目标 3 为什么选择Zabbix? 4 最佳实践&案例分享 2019 中国数据智能管理峰会

4.2019 中国数据智能管理峰会

5. Volatility Uncertainty 易变性 不确定性 Complexity Ambiguity 复杂性 模糊性 2019 中国数据智能管理峰会

6.2019 中国数据智能管理峰会

7.每分钟宕机 时间造成的 损失 2019 中国数据智能管理峰会

8. 基础架构急速扩容 异构平台的兼容性 每分钟宕机 时间造成的 损失底层设施的稳定性 人员技术栈的深度 不同团队间的协作 2019 中国数据智能管理峰会

9. 目录 1 Fintech的挑战 2 Fintech环境下的监控目标 3 为什么选择Zabbix? 4 最佳实践&案例分享 2019 中国数据智能管理峰会

10. ~5年前 现在 服务器 ~300 ~5000 每分钟宕机 应用 ~50 ~300 时间造成的 损失 IT人员 ~100 ~500 架构 独立/集中式 微服务/分布式 开发语言 C#, JAVA C#, JAVA, Python, Go, Ruby... 2019 中国数据智能管理峰会

11. 存储 硬件 操作系统 • Huawei • NetApp • Windows • DELL • EMC • Linux • HP • HP • AIX • IBM • DELL • ESXi 中间件 应用 数据库 • Tomcat • MySQL • 基础架构 • Nginx • SQL Server • OA办公系统 • WAS • Redis • 微服务 • IIS • PostgreSQL • 移动App 2019 中国数据智能管理峰会

12. 可用性监控 自定义监控 服务 自定义KPI 端口 业务监控 链路 联机状态 性能监控 日志监控 CPU/内存 安全日志 网络带宽 系统日志 磁盘 I/O 应用日志 用户连接数 操作日志 2019 中国数据智能管理峰会

13. 目录 1 Fintech的挑战 2 Fintech环境下的监控目标 3 为什么选择Zabbix? 4 最佳实践&案例分享 2019 中国数据智能管理峰会

14.2019 中国数据智能管理峰会

15.• 开源免费,社区支持 • 分布式、高可用 • 低级别发现&自动发现 • 全栈级监控 • 可定制,与DevOps流水线集成 2019 中国数据智能管理峰会

16. 目录 1 Fintech的挑战 2 Fintech环境下的监控目标 3 为什么选择Zabbix? 4 最佳实践&案例分享 2019 中国数据智能管理峰会

17. 01 分布式自动化监控 02 双维度管理(平台维度/业务维度) 03 告警通知 04 面板展现 05 自动化带外管理 06 持续集成/持续交付 2019 中国数据智能管理峰会

18. 分布式自动化监控 – 痛点 • 背景:互联网业务骤增,业务多元化,用户数量持续增长。应用和服务器的 数量快速增长,引入的厂商及技术栈日益丰富 • 痛点: – 1. 未及时添加监控 – 2. 监控项目缺失 – 3. 监控噪音 – 4. 手工添加 2019 中国数据智能管理峰会

19. 分布式自动化监控 数据库使用MHA高可用技术,使 用OneProxy进行读写分离。 每个网络区域部署Proxy服务器, 由Proxy来处理该区域的监控数据。 Web端部署在用户可访问的区域。 防火墙上仅开通必要的网络链路。 2019 中国数据智能管理峰会

20. 分布式自动化监控 监控主机 Hosts 监控模板 负责人 Templates Users 定义规则 2019 中国数据智能管理峰会

21. 分布式自动化监控 扫描 192.168.0.0/16 123.1.0.0/24 Port Port Port OS OS OS 判断 …… 1433 3306 8080 Windows RHEL CentOS Tomcat Windows RHEL CentOS 关联 MSSQL 模板 MySQL 模板 模板 模板 模板 模板 …… 中间件 Windows Linux DBA 团队 团队 团队 …… 2019 中国数据智能管理峰会

22. 分布式自动化监控 – 收益 • 收益: – 1. 提高监控有效性:定时自动添加监控,避免 监控缺失或者监控噪音。 – 2. 降低管理成本:人员只需要定义规则,监控 的实现环节全部交付给Zabbix完成。最大程度 减少整个监控环节中的人为介入。 – 3. Once for All 2019 中国数据智能管理峰会

23. 双维度管理 – 痛点 • 背景:业务、开发、运维对监控的要求越来越高。 • 痛点: – 1、视角不同,每个条线都有各自的监控需求; 同时不关注其他条线的监控或者报警(监控噪 音)。 – 2、权限最小化 – 3、庞大组织内的报警有效性。 2019 中国数据智能管理峰会

24. 双维度管理 (平台维度/业务维度) P – Platform,平台组; S – ServiceLine,业务组。 Platform Service-line • P-DB-SQL • S-DevOps-APP1 每个Host至少属于一个P组以 • P-App-Tomcat • S-Infra-APP2 及至少一个S组。 • P-OS-Windows • S-HelpDesk- P组与对应的模板关联; • P-HW-NetApp APP1 S组与对应的人员关联。 • S-Data-App4 监控不会遗漏;对应的系统负责人 只会收到对应系统的短信。降低监 控噪音。 2019 中国数据智能管理峰会

25. 双维度管理 – 收益 • 收益: – 1、监控不会遗漏 – 2、降低监控噪音 – 3、监控标准化 2019 中国数据智能管理峰会

26. 告警通知 – 痛点 • 背景:对应的管理员、业务或者老板需要在报警发生的时候了解具体情况。 痛点: – 1、报警未分级:及时一些minor的报警,也会 通知senior或者管理层。 – 2、报警通知不及时(Email) – 3、报警内容过于简单 2019 中国数据智能管理峰会

27. 告警通知 Trigger分级管理(Info,Warning, Disaster) 分级别通知机制 多渠道通知机制 报警内容精细化 2019 中国数据智能管理峰会

28. 告警通知 – 收益 • 收益: – 1. 报警分层管理:不同重要等级的报警发送给 不同的人。 – 2. 多渠道报警:短信、Email……及时触达。 – 3. 报警内容精细化:一条短信包含所有必要内 容。 2019 中国数据智能管理峰会

29. 面板展现 – 痛点 • 背景:业务、数据、运维团队都需要不同维度的数据报表。 • 痛点: – 1. 定制化差:需求一旦改变,需要从头开发。 – 2. 不易上手:对使用者专业要求高,学习成本大,二次开发耗时耗力。 – 3. 不够酷炫:提供基本的展现,无法满足企业级BI展现需求。 2019 中国数据智能管理峰会

数据连接未来!围绕Database、Bigdata、AiOps的企业级专业社群。行业大咖、技术干货,每天精品原创文章推送,每周线上技术分享,每月线下技术沙龙,受众20W+。