- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
【第4期】星火燎原 DeepFlow漫谈之技术、场景、方案
展开查看详情
1 .© 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
2 . 看云网更清晰 星火燎原-DeepFlow漫谈之技术、场景、方案 ——“原力释放”云原生可观测性分享会第四期 云杉网络 华东技术经理 冀佳鹏 © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
3 . 1. 星火——云数据中心可观测性技术图谱 2. 燎原——从场景地图中看DeepFlow的行业价值和定位 3. DeepFlow行业场景实战举例 © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
4 .1.0—可观测性的经典定义 Metrics, tracing, and logging Peter Bourgon simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
5 .进阶2.0-关于Telemetry Network Telemetry 是什么? OpenTelemetry 是一组标准和工具的集合,旨在管理观测类数据,如 trace、 metrics、logs 等 (未来可能有新的观测类数据类型出现)。 Network Telemetry技术 不是什么? 网络设备厂商提供的基于设备计算能力上传Telemetry数 即 OpenTelemetry 不提供与可观测性相关的后端服务,这类后端服务通常提供的 据的监控技术,一般通过特定的专用芯片实现相应网络状 是存储、查询、可视化等服务。 态指标的计算和传输(gRPC\INT)至后端分析器展示。 帮助我们解决的是数据采集传输的标准化问题 基于 OpenTelemetry 可为观测数据提供一套标准的采集、处理、导出流程,并在处理环节根据 Telemetry技术的关键在于预置于前端的 团队需求规范化观测数据,便于后续采用标准化的方案使用观测数据,如监控、告警服务。 指标计算和标准化传输能力 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
6 .进阶3.0-DeepFlow流量数据包处理(BPF) DeepFlow 业务VM 业务VM 业务VM 业务POD 业务POD 业务POD 采集POD (HostNet) DeepFlow vSwitch / Bridge 采集器进程 CNI vSwitch / Bridge DaemonSet 虚拟化 - KVM 容器 - K8s Node (VM/BM) • 零干扰:无需对vSwitch和KVM做任何配置、不监听任何端口 • 零干扰:无需对vSwitch和Node做任何配置、不监听任何端口 • 零依赖:用户态进程部署运行,无任何Lib依赖 • 全自动:DaemonSet POD部署运行,随K8s自动扩展 • 零侵入:不侵入业务VM,一个进程采集所有业务VM流量 • 零侵入:不侵入业务POD,可采集所有业务POD及本Node流量 业务 业务 业务 采集 SDK POD POD POD POD Lib 业务VM 业务VM br 业务VM (K8s Node) Sidecar DeepFlow Agent vSwitch / Bridge 采集器进程 虚拟化 - KVM 分光 • 宿主机+KVM + K8s混合场景,自动切换流量采集,最低消耗采集全网 镜像 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
7 .进阶4.0—EBPF能力+ 如何做到真正的端到端落地? 帮助我们解决的是应 用数据采集时复杂的 插码、打桩的难题。 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
8 . 进阶4.0—DeepFLow全链路监控实现 OpenTelemetry SkyWalking DeepFlow without Extension (Team A) (Team B) ALB/NLB/APIGW/NATGW/K8s NIC/Infra SVC/Sidecar/... √ infra service inner functions NAT NLB K8s NICs break by aio sidecar DeepFlow 代码零侵入监控方案 ALB infra service unexpected path not yet non-critical path instrument • 业务代码零修改 DeepFlow with Skywalking/OpenTelemetry Extension • 业务进程零重启 * DeepFlow v6支持的全链路追踪能力 • 编程语言无感知 OpenResty • 网络+系统+应用指标 Auth-svc handle_http() svc6 handle_http() • 任意服务的访问请求日志 Auth-svc func1() svc6 func1() • 网络+应用全栈全链路追踪, svc6 func2() 与应用链路追踪通过TraceID关联 svc0 handle_rpc() svc7 handle() svc8 handle() ☺ envoy svc1-python svc3-newrpc 全链路追踪 MySQL ALB DNS svc4 svc5 svc9 handle() svc2 log log log simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
9 . 数据中心可观测性技术图谱 容器资源监控数据 APM应用性能数据 采集器 计算资源 客户端性能 分析与拨测 设备网络监控 NetFlow\Sflow 采集器 采集器 SNMP Network Telemetry 采集器 采集器 WEB SDK 移动端 SDK Leaf WAN NFV区域 PAAS服务 采集器 NAT GW Firewall Router Spine L4 LB L7 LB 采集器 Redis DB 中间件 网关SW EIP 车载端SDK VPCGW 镜像流量数据 网关服务器集群 采集器 消息队列 SLB 智能DNS 物理网络NPM 采集器 生产云资源池-AZ simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
10 . 1. 星火——云数据中心可观测性技术图谱 2. 燎原——从场景地图中看DeepFlow的行业价值和定位 3. DeepFlow行业场景实战举例 © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
11 .DeepFlow可观测性平台 零侵扰的采集与分析 发送 零侵扰的云原生应用可观测性 关联 插码、打桩的可观测性数据 * 目前支持数据关联,DeepFlow v6正在迭代支持接收各类开源数据源 云原生应用环境 全 调用关系 知识图谱 景 应 链路追踪 黄金指标 用 数据分析 图 技 术 请求 栈 解析 性能指标 kafka 原 调用日志 应用链路 应用链路(Tracing) TraceID 始 指标 链路追踪 采集器 数 聚合 应用日志(Logging) 监控数据 混 1% CPU Flow 合 据 云 采 标签 1% 资源、服务、API标签,变更事件 / 关联 容 集 带宽开销 器 数据标签 数据 变更事件 压缩 云平台API 资源信息 网 容器编排API 关 TKE ACK 控制器 企业混合云 10W采集器 数据节点 20+种云/容器 云原生,水平扩展 100x ES/InfluxDB性能 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
12 . DeepFlow服务场景地图 4 公有云 2 数据中心 区域 运营商5G核心网 公有云 基站 车载端SDK 计算资源 3 运营商 基站 边缘云 5 终端区域 灾备数据中心 Mobile SDK Leaf WAN NFV区域 PASS服务 Spine NAT GW Firewall Router L4 LB WEB SDK L7 LB Redis DB 中间件 网关SW EIP VPCGW 镜像流量数据 网关服务器集群 消息队列 SLB 智能DNS 分支机构 1 资源池内 生产云资源池-AZ simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
13 . 企业-多地数据中心混合云可观测平台 建设要求:面向多地数据中心、异构混合云资源池的一体化可观测性平台 分支机构 1 混合云可观测性平台 采集器 专属服务器 Region X,主区域 NoC、SoC、大数据运维、业 AZ 1 AZ n 策略控制: 分支机构 N 务分析工具、IT审计平台等 控制器 控制器 采集器 API 主控制器 采集器 备控制器 采集器 ◆ 采用“主、备、从”控制器部署模式,由 专属服务器 ESXi 专属服务器 采集器 采集器 主控制器进行控制平面策略配置,再通过专线 公有云 Internet KVM KVM 采集器 网络同步至其他区域从控制器。 采集器 容器 时序数据库 容器 数据存储: VPC互联 VPC 时序数据库 192.168.0.0/16 Internet 路由 ◆ 不进行集中式的数据存储,每个区域内部 ACL ACL 采集器将监控数据发送至本区域内部的数 子网 192.168.0.0/24 子网 192.168.1.0/24 专有网络 Region Y 据节点(时序数据库),在多个数据中心 AZ 1 安全组 安全组 安全组 控制器 内部形成分布式的时序存储集群。 从控制器 集中展示: 采集器 采集器 采集器 采集器 控制器 专属服务器 容器 On VM 容器 On VM Workload 从控制器 ◆ 当平台进行可观测性数据查询时,可以分 采集器 KVM 时序数据库 时序数据库 容器 采集器 别下发查询策略至各区域内的数据节点, 并上传同步查询结果数据,形成混合云一 API请求路径 体化的可视化页面。 数据采集路径 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
14 .证券(基金)-混合云大型分布式业务网络监控 OTC及TA系统 同花顺 ADB系统 FICC系统 CMDB系统 报盘系统 公募基金系统 道和系统 产品中心 云平台 IT服务管理系统 IT知识库 理财APP 综合理财系统 资管系统 君弘系统 锐智系统 自营业务系统 用户中心 安全扫描系统 容量管理系统 业务层 集中清算系统 第三方存管系统 证券APP 网上交易 UAT测试系统 营运业务系统 运维大数据平台 智能运维系统 核心交易类业务 互联网类业务 综合支撑类业务 运行管理类业务 全业务场景分析 开放共享 控制器 网络性能全链路诊断 应用性能分析 业务性能全景图 数据共享与对接 资源用量 采集策略 全链路网络分析 SQL/NoSQL性能分析 全自动业务网络拓扑 流量数据包分发 能力 分发策略 运行日志 多维度网络流量搜索 HTTP/DNS服务分析 业务画像 全自动数据API 图谱 多资源池 一体化管理 全网PCAP包下载 RPC/MQ性能分析 重要业务站点监控 全网网络数据共享 存储周期 拨测管理 网络拨测分析 代码级应用协议分析 全网全天候请求日志 平台资源对接 流量采集器探针Trident 数据采集层 EBPF AF_PACKET 实时拨测 算力下沉 单独管理平面 数据包分发 资源服务层 中间件 Redis 数据库 虚拟机 网元层 容器资源 云资源池层 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
15 .运营商-端到端分析场景 横向端到端场景 纵向端到端场景 全局端到端场景 端到端 SaaS PaaS IaaS 业务应用 场景 PaaS组件分析 资源池分析 业务视角分析 系统视角分析 租户视角分析 业务全景视图 流程分析 全局端到端 业务全景视图 业务统一监控 业务资源管理 业务指标分析 业务性能分析 横向端到端 纵向端到端 SaaS 业务 系统 租户 应用监控 服务监控 进程监控 APP监控 … 应用层 业务全局 系统全局 租户全局 端到端 调用拓扑 调用拓扑 调用拓扑 运维能力 PaaS 单笔业务 系统全局 租户全局 组件监控 容器监控 数据库监控 中间件监控 … 组件层 调用链 资源概览 资源概览 业务资源 系统资源 租户资源 IaaS 性能监控 性能监控 性能监控 服务器/虚拟机监控 存储监控 网络链路 … 资源层 … … … 拨测 APM 日志 网络 端到端 用户模拟 网络质量 调用链 用户行为 交易日志 服务日志 网络状态 性能指标 采集 应用性能 接口性能 服务性能 前端性能 应用日志 网络日志 业务调用关系 流量报文 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
16 .运营商-5G核心网网元监控 在5GC中,存在大量的、复杂的NFS间服务 调用。 如图所示: AMF(Access and Mobility Management Function)中的NFS调用UDM(Unified Data Management)中的NFS获取用户信息,这个过程 中,并不是像传统环境中直观简单。 AMF、UDM中的NFS运行在物理 服务器之上的虚拟机中的容器POD, 方案可展示网元POD之间的服务调 用关系,拆解网络路径,全栈跟踪 服务访问性能,判断5GC环境中异 常、延时的问题点。 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
17 . 运营商-算力网络关键度量平台 DeepFlow可以作为算网大脑的度量数 据支撑、也是刻画算网地图的重要手段。 中心云 政企云 移动云 行业云 云PE 云PE 云PE 网PE 网PE 网PE 网PE 边缘云 公有云 边缘云 社会算力 业务全景拓扑 业务相关的算力、运力、存力的性能指标 算力网络是利用云网融合技术以及SDN/NFV等新型网络技术,将边缘计算节点、云计算节点以及 含广域网在内的各类网络资源深度融合在一起,减少边缘计算节点的管控复杂度,并通过集中控制或 者分布式调度方法与云计算节点的计算和存储资源、广域网的网络资源进行协同,组成新一代信息基 础设施,为客户提供包含计算、存储和连接的整体算力服务,并根据业务特性提供灵活、可调度的按 需服务。 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
18 .公有云-服务互联网客户的Saas平台 轻量级部署于Workload 中,容器环境采用 DaemonSet或Sidecar方 式部署。分钟级实现云上 业务监控全覆盖。 DeepFlow® Cloud 创新性的为公有云客户提供数据包粒度的网络及应用性能分析,提 供强大的指标数据能力,针对不同维度的访问关系对,端到端性能等提供 12 类 110 种 指标量。和已有的监控工具实现关联追踪。 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
19 . 车联网-云、网、边、端的一体化监控手段 I. 车联网场景:V2C、V2V、V2X II. 覆盖云-边-端监控点 III. 云边端、车端可观测能力 云边端采集器、控制器、数据节点 集成与数据开放 CPU: 1Core MEM:1G 带宽:支持传输指标数据、日志、数据包 通过VehicleID、TraceID、网络流等将车联网监控拼连起来 车端采集器: 网络延时 云内服务 资源消耗、稳定性、自身监控 车端拨测 调用、追踪、全栈 CPU:200MHz MEM:256M 带宽:仅传输指标数据,~业务流量的0.1% 车端拨测 应用错慢 性能状态 全景视图、云端服务性能、服务能力评估、快速排障定位、 微服务调用关系、数据开放 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
20 . 1. 星火——云数据中心可观测性技术图谱 2. 燎原——从场景地图中看DeepFlow的行业价值和定位 3. DeepFlow行业场景实战举例 © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
21 .某新型车企云原生应用监控:可观测性平台 客户环境: 生产应用基于多云IT基础设施环境; 覆盖1000+容器节点,数量按需增加,运行微服务架构应用; 应用分析平台基于Skywalking, Tracing Logging 告警 面向各部门视图 日志分析平台基于Elasticsearch, 监控告警出口为Zabbix; 关联键值: 关联键值: TraceID、SpanID、 Pod、Node、 需求: WEBHOOK DataSource Plugin SegmentID、URL Service、VPC、 在云环境中,没有网络监控手段,容器间尤为迫切,排障定界难。 VM 应用实现涉及部门较多,应用链路跟踪分析很难区分应用侧与基础 设施侧。导致微服务应用性能的整体评估粒度粗。 业务部门、运营部门、云部门对指标监控关注侧重点不一。 建设: Metric 部署DeepFlow平台,按需拉起新增容器节点。具备容器环境中的 网络性能全栈监控。 对接Skywalking、Elasticsearch平台,初步实现对微服务应用的 整体可观测性能力。 技术专业不同,针对业务部门、运营部门需求,对接Grafana视图, 提取汇总指标,针对性展示指标监控变化。 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
22 .DeepFlow与Grafana的结合,面向业务运维团队提供Dashboard 微服务调用关系 总体流量趋势 微服务HTTP请求、时延、异常 微服务流量趋势 微服务TCP活跃、新建、零窗 微服务建连时延、系统时延、应用时延 微服务DNS请求、异常 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
23 .应用性能追踪,面向开发团队提供快速故障定界能力 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
24 .某金融行业多云业务全景视图 多资源池分布式业务流量全 apollo-portal 景拓扑图 某容器微服务业务资源池 流量全景拓扑图 CMP业务 apollo-admin hsiar-entrance hsiar apollo-config 各个项目组业务群 点击流量路径,展示全 mas 栈链路追踪拓扑,以及 workflow workbench 对途径虚拟网元节点进 行性能分析诊断 全栈链路追踪性能分析详情表 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
25 .某证券-中间件服务全景可视 DeepFlow实现混合云一体化监控的流量全景拓扑,某金融业务中Rocketmq、Redis等中间件部署在私有云资源池中,其他相关业 务应用为容器化部署,通过DeepFlow全自动流量拓扑直观地展示跨资源池通信业务的性能指标诊断情况,实现业务故障链路快速 定界定位。 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
26 .某银行-大型分布式业务快速告警及下钻 在全局业务视图 中发现某一条网 点击异常告警的路 络路径指标异常 径,展示详细指标 告警。 分析和全链路分析。 发现是由于 “服务端直接 重置”导致的 建联失败。 再将所有访问该应用的 请求展开,发现所有到 将服务端端口展开, 10911端口应用均有建 展示在该路径上是 连失败的问题,访问其 访问MQ 10911端 他端口正常。 口引发的重置。 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
27 .某运营商-资源池SLO可用性评估 1、针对SLI指 标设置SLO性 能指标参数阈 值。 资源池网络监控自动化驾驶舱实时指标监控 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
28 . 定风波——苏轼 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.
29 .预约产品交流 免费体验 simplify the growing complexity © 2022, YUNSHAN Networks Technology Co., Ltd. All rights reserved.