- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
【第1期】 IT系统为什么需要可观测性
展开查看详情
1 .云原生可观测性分享会 第一期
2 . 议题 云原生可观测性分享会 第一期 • 为何需要可观测性? • 如何理解可观测性? • 如何评估可观测性? • 如何构建可观测性? • 如何使用可观测性? © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
3 . 为何需要可观测性?赋能 • 认知能力(for Engineer) – 紧跟潮流趋势 – 深入理解云原生技术和分布式系统 – 年薪10X • 创新能力(for Architect) – 推动技术升级 – 构建新云原生应用的监控运营平台 – 规模10X • 组织能力(for CTO) – 提升管理效率 – 实现跨部门的多团队联合作战能力 – 效率10X 可观测性赋予IT团队超凡原力 © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
4 . 什么是可观测性?三大支柱说 We were able to speak more productively when it was clear what we were talking about. Peter Bourgon Go Kit 作者 It makes no sense because those are just three data types. Ben Sigelman 认知:可观测性需要多类数据,每类数据根据 不同的目的而不是类型选择不同的的处理方法。 Google Dapper 作者 © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
5 . 什么是可观测性?探索未知说 ... observability is how you explain unknown-unknowns. Charity Majors cofounder/CTO ... it's about exploration and Honeycomb debugging instead of dashboards and pattern matching or accessing 认知:以类似软件工程中的Debug 方法,去探索未知的系统问题。 certain data types. © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
6 . 什么是可观测性?控制理论说 控制理论中的可观测性是指:系统可以 由其外部输出推断其内部状态的程度。 一系统具有可观测性当且仅当:针对所有的状 态向量及控制向量,都可以在有限时间内,只 根据输出信号来识别目前的状态。 认知 • 外部输出 • 内部状态 现代控制理论之父 • 有限时间 他用可观测性解决了人类登月问题 © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
7 . 什么是可观测性?白盒监控说 简单而言,可观测性就是为复杂IT系统 寻求白盒监控能力。 IT系统的可观测性应具备零侵扰、多维 度、实时性等关键特性。 源现代自控制理论的认知 • 外部输出==>零侵扰 亓亚烜 QI Yaxuan • 内部状态==>多维度 控制科学与工程博士 • 有限时间==>实时性 云杉网络创始人、CEO © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
8 . 如何评估可观测性?改变残酷的现状 业务部门的需求 1)在数百个服务中发现瓶颈:非采样,秒级精度,提供HTTP/DNS/GRPC等性能指标数据 2)在数千个访问中追踪应用:应用层Trace追踪数据,网络层Flow追踪数据 3)在数万个容器中定位根因:提供全栈(API、主机、基础设施)端到端指标数据、日志数据 兄弟们的现状,急需改变 没日没夜的给程序打桩插码 想方设法让Prometheus极限运行 © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
9 . 如何评估可观测性?三大判据 • 零侵扰判据 – 是否无需应用插码、重启,是否无 需网络分光镜像 – 是否消耗不超过云主机1%的CPU • 多维度判据 – 是否提供应用层数据 – 是否提供网络层数据 – 是否提供基础设施层数据 • 实时性判据 可观测性平台收集并赋予团队原力 – 是否提供对指标、追踪、日志数据 的秒级写入 满足零侵扰、多维度、实时性的可观测性平台 – 是否提供对PB级数据的秒级检索 为开发和平台团队带来100%的驱动力 © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
10 . 如何评估可观测性?技术趋势之eBPF eBPF技术解决零侵扰、多维度问题 DeepFlowv DeepFlow 应用进程 技术栈 APM NPM 应用进程 5 v6 应用进程 应用进程 √ √ istio POD 服务网格 √ √ POD POD网卡 √ √ iptables、ipvs iptables/ipvs √ KVM KVM VM网卡 √ √ VM 宿主机网卡 √ √ √ L2GW、OvS 镜像/隧道流量 √ √ √ HOST © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
11 . 如何评估可观测性?技术趋势之OLAP OLAP实时数仓解决不同类型数据的实时读写问题 100K 1M 10M DeepFlow 5.1 DeepFlow 5.5 DeepFlow 6.0 18mon 18mon Elasticsearch InfluxDB ClickHouse 1x 10x 100x DeepFlow 主要版本的每秒列读写速率每18个月增长10倍 © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
12 . 如何构建可观测性?三种方式与增长飞轮 • SaaS – 体验 – 学习技术趋势 SaaS 开源 • 开源 可观测性 – 创新 增长飞轮 – 加速业务创新 • 集成 – 品质 集成 – 满足生产需求 © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
13 . 如何构建可观测性?SaaS 阿里云 • 优势 – 功能齐全,一站式服务 • 挑战 – 应用运行在公有云上 – 数据由服务商管理 – 计费复杂,影响预算 认知:除公有云服务商外,国内外均有SaaS可观测性服务提 供 © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
14 . 如何构建可观测性?开源 用户层 业务1部、业务2部、...、业务n部 基础架构部 安全部 APP、WEB、CLI、API 展示层 指标 追踪 日志 告警 数据层 实时数仓 • 优势 – 灵活快速的满足业务需求 采集层 开放协议 – 观测数据掌握在自己手中 零侵扰采集 • 挑战 – 开源采集器难以覆盖全栈数据 agent exporter – 开源数据平台性能不足 认知:对业务迭代快、开发能力强的团队,开源是最佳实践 © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
15 . 如何构建可观测性?开源 微服务调用关系 总体流量趋势 微服务HTTP请求、时延、异常 微服务流量趋势 微服务TCP活跃、新建、零窗 微服务建连时延、系统时延、应用时延 微服务DNS请求、异常 这(应)是Grafana的视图吗? © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
16 . 如何构建可观测性?集成 • 优势 – 满足行业合规性要求 – 项目预算可明确规划 • 挑战 – 以“数据即事实”带动部门协同 认知:能将业务、预算、合规、协同 通盘考虑,方可具备集成构建大规模 – 以“业务为中心”改变技术运营思路 可观测性平台的系统工程能力。 © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
17 . 如何构建可观测性?集成 这(应)是网工的规划吗? © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
18 . 如何使用可观测性?某智能车企实战 • 背景 – 某智能汽车企业,公司采用公有云+容器化部署核心业务 微服务A – 微服务观测不全一直是困扰着业务快速上线的一大问题。 – 业务上线后遇到故障只能靠猜、靠逐段抓包诊断故障原因,费时费力。 • 实战 应 微服务X 用 可 近期在生产环境nginx-control上线过程中出现了xxx-api调用xxx- – service.prod.k8s.xxx.com超时的情况。 监 观 控 测 虽然现有系统能定位到工作负载和服务域名(即源和目的),但其间经 – 只 性 过多个微服务和网络服务,到底是谁引发了访问中断? 能 微服务Y 可 – 由于客户端、服务端均没有(或无法)部署Skywalking监控、没有采集 以 日志 看 到 全 – 这个问题经过一整天排查未有结论,严重影响业务上线进度 栈 这 • 价值 两 监 借助可观测性的全栈能力15分钟内定位到了根因:一个特定的Ingress 微服务Z 控 – 点 Control的容器POD – 反馈到开发人员后通过修复Nginx快速恢复了故障。 微服务B © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
19 . 如何使用可观测性?某股份制银行实战 • 背景 POD – 某股份制银行,在国内外的100余个城市设立了服务网点。 POD 很多业务部署在云平台的容器上。 NAT NAT DB – 私有云平台上的10万多个微服务,数十万个POD支撑业务 ,每分钟业务产生的访问数亿次。 POD • 实战 – 业务部门经常遇到关键资源访问量徒增问题,“谁动了我 的数据库!”是常见抱怨。 – 难点一是可疑分子太多,“谁”隐藏在8万多个POD,8千 多个Node、1千多VM、1千多Host之中。 序号 业务访问场景 全栈观测模板 – 难点之二是每一个可疑分子到关键资源之间,至少经过两 次地址转换,且POD、Node、VM、Host、PIP、GW的访问 1 云外访问云内容器业务 Client--GW--Host--Infra--Host--Node--Pod 路径非常复杂。 – 难点之三是业务POD上不允许抓包。网关抓包丢包率高达 2 云外访问云内虚拟机业务 Client--GW--Host--VM 40%。 3 云内容器Pod访问云外业务 Pod--Node--Host--Host--Infra--(PIP)--Server • 价值 4 云内虚拟机访问云外业务 VM--Host--(PIP)--Server – 可观测性平台提供POD、Node、VM、Host、GW资源上全 量网络流量采集,解决了POD、MUX上流量采集难的问题 Pod--Node--Host--GW--Host--Infra--Host-- 5 云内容器业务之间互访 – 其次,同步云平台NAT、LB等转换规则测试,通过服务端 Node--Pod 源IP地址、目的IP地址,分钟级在海量数据中,找到对应的 POD、Node、VM、Host; 6 云内虚拟机业务之间互访 VM--Host--GW-Host--VM – 最后,为业务部门梳理出来常见的全栈链路观测模板,助 力业务部门分钟级定位业务性能峰值问题。 7 云内虚拟机业务与容器业务之间互访 VM--Host--GW--Host--Infra--Host--Node--Pod © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
20 . 如何使用可观测性?其他用例 金 1. 开发测试环境不稳定导致新业务上生产带隐患 融 2. 电子审批流业务每周都出问题 、 运 3. 电商业务扩容一个POD需要几个小时 营 4. 如何圆满完成集团对省公司业务可用性的考核 商 5. SQL集群高可用频繁异常切换 、 6. 为什么个贷业务突然访问慢 政 7. 如何找到引发业务抖动的隐藏服务 府 等 8. 省消防队如何快速追查被通报的原因 商 9. 上云后如何避免Pcap逐包分析 用 10. 视频银行业务上云的定心丸 客 ... 户 以上内容来自云杉 《DeepFlow 实战用例》文档 © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved. 为何需要可观测性? 如何理解可观测性? 如何评估可观测性? 如何构建可观测性? 如何使用可观测性?
21 . 总结 • 为何需要可观测性? – 赋能:认知能力、创新能力、组织能力 • 如何理解可观测性? – 三大支柱说、探索未知说、白盒监控说 • 如何评估可观测性? – 零侵扰、多维度、实时性 • 如何构建可观测性? – SaaS、开源、集成 © 2022, YUNSHAN Networks Technology Co. Ltd. All rights reserved.
22 .如何构建可观测性? 云原生可观测性分享会 第一期 Yoda,绝地武士 向阳,研发VP 来源,COO 体验:DeepFlow Cloud 开源:MetaFlow 集成:DeepFlow 可观测性SaaS服务 可观测性开源直播报名 Enterprise 可观测性解决方案