- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
【第6期】5GC和电信云 构建云网络可观测性的必要性
展开查看详情
1 .
2 .Why: 为什么5GC和电信云需要云网络可观测性
3 .
4 . 过去:全球发生多次5GC故障 事件一:2021年4月18日,加拿大Rogers移动通信网发生连续26个小时的大规模断网事件 【事件回顾】 Ø 加拿大第一大移动通信网络运营商Rogers Wireless及旗下Fido Solutions于加拿大东部时间4月18日发生超大规模断网,造成严 重的社会影响。 Ø “波及加拿大全国范围及近千万用户”;“持续很久才完全恢复”,“经评估至少持续26个小时”;“造成社会经济活动近乎停 滞”,“一是人们无法通过电话完成沟通。二是极其影响公共安全,用户无法正常使用“911”电话。三是无法线上预约新冠疫苗 以及其他医疗服务。四是学生无法上网课。五是阻碍了经济活动”;“加拿大多伦多大学教授Brett Caraway表示,Rogers此次断 网对加拿大经济产生了重大负面影响”。 Ø 事后追溯,是由于某厂商5GC设备升级触发隐性Bug,故障发生后缺乏快速定位手段,导致故障恢复时间长。 事件二:2021年11月21日,**省**运营商发生全省5G服务中断事件,持续7个小时 【事件回顾】 Ø 2021年11月21日18点20分左右开始,**省**运营商全省用户无法注册网络,至22日凌晨1点5G服务方才恢复。 Ø 故障发生后,经定位是由于某厂商UDM软件故障引起,但具体的UDM软件故障的根因无法迅速找到,只能通过重新部署一遍软件 方才恢复。 云原生可观测性分享会-第6期
5 .现在:5GC的运维困境 云网络“黑盒化” 运维技术难度高 故障定责定界难 业务保障难 急需打开网络黑盒 急需跨层的保障平台 急需高效定责定界工具 急需网元、网络云的统一 运维工具 l 节点IP数量百倍增长 l 运维保障横跨数通、服 l 难以在网元层、虚拟层、 l 云平台运维缺乏直接面 务器、SDN、虚拟化、 硬件层之间快速定界 向网元层业务的保障手 l Full-Mesh网络 容器、5G等诸多技术 段 l 难以对领域内技术栈故 l 网络虚拟化 专业 障进行快速定位 l 信令分析对问题的定位 l 网络动态弹性变化 l 各技术领域跨度大、难 止步于NFV网元SBI接 l 各专业间扯皮多 度深,技术协同难度高。 口,难以快速精准定位 l 故障处理效率低 到NFV网元内部模块。 l 影响团队合作氛围 云原生可观测性分享会-第6期
6 . 现在:5GC的运维困境 核心网运维 与 云平台运维 1. PCF-1有异常,服 1. 服务器上是有告警, 务器上有告警,肯 但和PCF-1异常没关系, 定是服务器异常导 你们还是查一下软件 致的,赶紧处理告 的问题吧? 警。 网元层:VNF 2. 升级前后都有相 同的告警,升级前 2. 升级之后服务 没有问题,是不是 异常了,虚拟机 软件版本的问题? 上有告警,赶紧 处理虚拟机告警。 虚拟层:VM 3. 虚拟网络没有办法 3. 服务X响应很慢, 抓包。VIM/PIM也没 有告警呀?是不是业 赶紧查一下是不是 硬件层:服务器/网络/存储 务软件有Bug? 网络中有丢包? 云原生可观测性分享会-第6期
7 .未来:5GC三层解耦的阻塞点 三层解耦,难以跨越的鸿沟,Why? 现状 目标 厂商绑定 三层解耦 网元层: 虚拟层: 硬件层: 【中国移动】 【中国联通】 【中国电信】 云原生可观测性分享会-第6期
8 .根源 传统核心网 5GC+电信云 ATCA+专用操作系统 通用X86+云/容器 软硬耦合 软硬解耦 静态、稳定 动态、弹性 CT绝对高可靠 IT相对高可靠(容错) ATCA背板交换+光纤直 复杂云网络 连 网元网管运维 网元网管运维 云原生可观测性分享会-第6期
9 . 可观测性理论分析 “可观测性”=“运行可靠性” 新的可观测性理论三支柱 “可观测性”:对复杂业务系统内部的洞 察能力 全面可观测性 经典可观测性三支柱 应用 网络 系统 可观测性 可观测性 可观测性 VNFM: VIM、PIM: 性能 空白: CPU 告警 (5GC/电信 Memory 缺失网络可观测性! 事件 日志 云) Disk Interface CHR 云网络可观测性是解决 5G核心网跨层运维保障的重要一环! 云原生可观测性分享会-第6期
10 .What: 什么是DeepFlow
11 .DeepFlow——云网络可观测性方案 轻量级、零侵扰、分布式采集 发送 零侵扰的云原生应用可观测性 关联 开放的数据接口 云原生应用环境 网络性能分析 应用性能分析 应 用 数据分析 链路追踪 …… 监控数据 技 术 请求 API接口 栈 解析 性能指标 kafka 原 调用日志 始 指标 链路追踪 采集器 数 聚合 O+、核心网工作台、网络云工作台 1% CPU Flow 云 据 …… / 容 采 标签 1% 关联 器 集 带宽开销 数据标签 数据 变更事件 压缩 云平台API 资源信息 网 容器编排API 关 云管平台 数据节点 控制器 云原生,水平扩展 10W采集器 100x ES/InfluxDB性能 20+种云/容器 云原生可观测性分享会-第6期
12 . DeepFlow——零侵入、零干扰、高性能采集 DeepFlow 业务VM 业务VM 业务VM 业务POD 业务POD 业务POD 采集POD (HostNet) DeepFlow vSwitch / Bridge 采集器进程 CNI vSwitch / Bridge DaemonSet 虚拟化 - KVM 容器 - K8s Node (VM/BM) • 零干扰:无需对vSwitch和KVM做任何配置、不监听任何端口 • 零干扰:无需对vSwitch和Node做任何配置、不监听任何端口 • 零依赖:用户态进程部署运行,无任何Lib依赖 • 全自动:DaemonSet POD部署运行,随K8s自动扩展 • 零侵入:不侵入业务VM,一个进程采集所有业务VM流量 • 零侵入:不侵入业务POD,可采集所有业务POD及本Node流量 业务 业务 业务 采集 SDK POD POD POD POD Lib 业务VM 业务VM br 业务VM (K8s Node) Sidecar DeepFlow Agent vSwitch / Bridge 采集器进程 虚拟化 - KVM 分光 • 宿主机+KVM云原生可观测性分享会-第6期 + K8s混合场景,自动切换流量采集,最低消耗采集全网 镜像
13 .DeepFlow——网络+应用全量采集 如何做到真正的应用端到端追踪 ü BPF、eBPF技术 ü 零插码、零打桩 ü 业务进程零重启 ü 编程语言无感知 ü 无厂商依赖的应用数据采集。 ü 网络、应用全方位监控 ü 任意一次的访问,网络+应用全栈链 路追踪 ü 主流应用协议支持:HTTP、HTTP2、 Dubbo、MySQL、Redis、Kafka、 云原生可观测性分享会-第6期 DNS……
14 .DeepFlow——宏观至微观多维度分析 1. 宿主机(全网)智能可视化视图 2. 宿主机(单网元)智能可视化视图 3. 虚拟机(单网元)智能可视化视图 4. 网元(VNF)智能可视化视图 5. 网元微服务智能可视化视图 6. 网络全栈链路追踪 云原生可观测性分享会-第6期
15 .DeepFlow——跨层网络全栈链路追踪 容器应用POD——虚拟机——宿主机 全栈链路追踪能力 快速故障定界 快速故障定位 缩短MTTR 1 2 3 5 6 7 业务 POD 业务 POD 业务 POD 采集 业务 POD 业务 POD 业务 POD 采集 POD POD 1 7 br br K8S 虚拟机Node K8S 虚拟机Node 2 DeepFlow 6 DeepFlow vSwitch 采集器进程 vSwitch 采集器进程 全栈混合云:KVM 宿主机+容器 4 全栈混合云:KVM 宿主机+容器 3 5 云原生可观测性分享会-第6期 网关
16 .DeepFlow——应用端到端追踪 任意一次业务访问,应用+网络端到端追踪: 客户端进程——>云网络——>服务1进程——>云网络——>服务2进程——>……——>服务n Client进程 sevice-1进程 sevice-2进程 sevice-3进程 sevice-4进程 网络 sevice-5进程 云原生可观测性分享会-第6期 sevice-6进程
17 .How: DeepFlow云网络可观测性实践
18 .5GC+电信云部署方案 n 部署方案: • 覆盖华为FusionSphere云资源池; • 30余台宿主机,200余个虚拟机/容器节点,13个容 器集群/VNF网元; • 控制器集群、数据节点集群纳管KVM采集器、容器 采集器。 n 使用场景: • 主动指标监测; • 故障发现; • 故障定界、故障定位 • 网络日志检索 • …… n 使用效果: • 能够打开网络云“网络黑盒”,实现不同层次、不 同维度的拓扑可视化及性能指标智能分析; • 建立跨硬件层、虚拟层、网元层的统一可视化监控 运维能力,降低各技术专业运维难度; • 通过跨层的可视化能力,解决故障快速定界、定责 的难题,快速定位故障源,提升解决时效; • 解决网元运维、云平台运维的协同难题。 云原生可观测性分享会-第6期
19 . 跨层网络全栈链路追踪——丢包、时延问题快速故障定界 1 2 3 5 6 7 1 链路告警+微服务访问关系,快速锁定 AUSF——UDM链路异常。 2 通过时延指标在全栈链路中的陡增陡降,快速 锁定服务端虚拟机异常。 云原生可观测性分享会-第6期
20 .宏观至微观多维度分析——快速洞察网络异常 宏观洞察PCF内 部TCP异常 1 2 一键跳转锁定 PCF vha POD 3 一键检索流日志, 确定问题原因 云原生可观测性分享会-第6期
21 .宏观至微观多维度分析——快速洞察应用异常 宏观洞察PCF内 部DNS异常 1 2 一键跳转锁定 PCF cse-etcd 3 一键检索流日志, 确定问题原因 云原生可观测性分享会-第6期
22 . SRE实践——从应用至网络,多层次SLI/SLO主动监测 建设可度量的网络、系统、应用SLI/SLO指标评估体系: SLO(Sevice Level Objective )目标的设定: SLI的确定原则: SLO/目标值性能指标 维度 SLI/性能指标 VNF整体性 VNF内关键 备注 Ø 区网络、系统、应用 宿主机性能 虚拟机性能 SBI接口性能 能 微服务性能 Ø 负载、异常、时延 吞吐比特均值/s 2Gbps 500Mbps 500Mbps 10Mbps 30Mbps 基于业务量动态调整 SLO 是对SLI的量化目标 TCP重传比例 1% 1% 1% 1% 0.1% 基于质量要求确定 Ø 不同观测对象制订不同的SLO目标。 网络 TCP零窗比例 1% 1% 1% 1% 0.1% 基于质量要求确定 Ø 同一个SLI的量化目标随着系统的运行周期性调整。 平均TCP建连时延 20ms 20ms 20ms 15ms 10ms 基于质量要求确定 Ø 具体的SLO的设定,应综合性能、可用性、时延三 均值 新建连接均值/s 10K 2K 2K 10K 30K 基于业务量动态调整 个分类的指标,例如:TCP建联时延大于50ms我 们认为是网络响应慢、应用时延大于1秒我们认为 系统 TCP建连失败比例 1% 1% 1% 1% 0.1% 基于质量要求确定 是应用响应慢,根据吞吐和并发,可以得出慢请求 平均TCP系统时延 40ms 40ms 40ms 30ms 20ms 基于质量要求确定 均值 的百分比,再综合考虑上重传比例、异常比例等条 100K 20K 20K 2K 5K 应用请求数/s 基于业务量动态调整 件,可以计算出一个综合的SLO目标值。 应用 平均应用时延均值 1s 1s 1s 500ms 100ms 基于质量要求确定 应用异常比例 1% 1% 1% 1% 0.1% 基于质量要求确定
23 .SRE实践——从应用至网络,多层次SLI/SLO主动监测 针对SLI指标设置SLO性能指标参数阈值。 云网络SLI/SLO监控自动化驾驶舱
24 .总结 云网络可观测性: u 拉通跨层(5GC、云平台)运维的有效方法 u 5GC/云平台运维的必要手段 u 5GC三层解耦的必要条件 DeepFlow: u 零依赖、无侵入、极轻量级的可观测性数据采集 u 智能、灵活、多维度可视化分析 u 网络全栈链路追踪、应用+网络端到端追踪 u 跨层故障定界、定位,主动指标监测 云原生可观测性分享会-第6期
25 .