- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
【第2期】DeepFlow可观测性方案实践及开放合作
展开查看详情
1 .云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络
2 .云杉 云杉 云杉 云杉 云杉 网 原力释放络 网络 II期 云原生可观测性分享会 网 络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 云杉 云杉 开启愉悦时刻 云杉 ! 云杉 云杉 网络 网络 网络 网络 网络 容器微服务可观测性方案及开放合作 云杉 云杉 云杉 云杉网络 联合创始人 COO 来 源云杉 云杉 网络 网络 网络 网络 网络
3 .云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 网络 目 录 云杉 网络 云杉 网络 云杉 网络 云杉 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 1、DeepFlow可观测方案 2、产品及客户体会的愉悦时刻 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络
4 .云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 可观测性的愉悦从何而来 云杉 Aha Moment : 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 “思考或解决问题过程中一种特殊、愉悦的体验,是期间突然对之前并不明朗的某个局面产生深入的认识。” 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 经常遇到很难快速肯定回答的问题: “性能消耗在哪?” 图片来自互联网 云杉 云杉 无法回答当前的运行状态; 云杉 云杉 云杉 “上下调用关系正常吗?” 网络 网 网 网 混合云+容器+微服务应用的优势不必多说,但资源池化、应用服务化后也带来太多不明朗的局面。 络 络 络 零侵入 网络 无法确定特定服务的上下游依赖服务是否正常; “涉及插码,服务调用跟踪起来成本太高!” 很多情况不光不明朗而且很被动。 无法全景到逐跳的跟踪调用; 超出客户预期地解决问题 “网络修复了好几轮,问题还在出现。” 无法多维数据关联分析; 开启愉悦时刻 “处处抓包根本不现实,有时只能靠猜!” 故障定界不明朗 调用追踪不明朗 ... 性能分析不明朗 容量评估不明朗 云杉 云杉 “每次故障定界都要拉多个团队,翻每一个 云杉 云杉 云杉 网络 网络 网络 网络 网络 服务的日志。” 云环境中分层多,“黑盒”化 覆盖面不足,网络、系统、 虚拟化、容器、微服务弹性 观测对象及路径数量指数级增加 严重,技术栈要求广 应用的性能难以获取及关联 及动态性强
5 .云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 DeepFlow可观测性整体架构 云杉 观测点及数据获取 云杉 发送 云杉 云原生应用可观测性 云杉 关联 云杉 第三方工具数据 网络 网络 网络 网络 网络 企业混合云 网 黄金指标 调用依赖 基于应用代码和日志的可观测性 网 〔分布式〕 络 全栈链路 知识图谱 络 数 预处理 云杉 据 云杉 云杉 云杉 云杉 网络 采集器 ︹ 解析网络性能指标 网 络 网络 网络 1% CPU 零 调用日志 应用链路 资源 侵 TraceID 网络流量 入 聚合 APM 监控数据 NFV ︺ 区域 数 日志 采集器 云关联 0.01% Http、DNS、SQL、NoSQL、MQ、 云杉 据 杉网 带宽开销 应 云杉 RPC、MQTT 云杉 云杉 网络 1% CPU 获 络 网 络 网络 网络 用 访问追踪 错慢性能 知识图谱 取 压缩 变更事件 云平台API 应 用 资源信息 数 容器编排API 据 TKE ACK 采集器 企业混合云 云杉 1% CPU 云杉 云杉 云杉 云杉 网络 【低消耗】 网络 络 数据节点 【高性能】 网 网络控制器 网络 云原生,水平扩展 10万采集器 100x ES/InfluxDB性能 兼容对接20+云平台 1000+台跨Region集群
6 .云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 观测啥?本质还是数据 从系统性能和状态的黄金集合开始 根据场景诉求,关联、展开更多有效数据 关键时刻能扛事不? 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 The four golden signals of monitoring are 排障定界: latency, traffic, errors, and saturation. If you can only measure four metrics of your user- 应用的边界 facing system, focus on these four. 云杉 云杉 云杉 云杉 服务间调用的边界 云杉 网络 网络 网 络 网络 网络 吞吐: 发送、重传、新/接收字节、传输层 代码函数的边界 载荷、建连接数、活跃连接数、并发连接、 Infra(云、容器)、系统、应用的边界 应用请求… The time it takes to 延时 serve a request. 异常:TCP重传、零窗、重置、应用异常… 计算区域与NFV区域的边界 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 性能:网络时延、系统时延、应用时延… 网络 网络 The total number of 物理与虚拟的边界 计算方式:比例、峰值、均值、P95… 请求 requests across the network. 日志:网络日志,应用日志… 其他: 事务标识:TraceID、SpanID、URL… 云杉 错误 The number of云requests 知识图谱: 云杉 服务、容器、虚拟机、物理资 云杉 对于业务运营,服务质量评估 云 网络 杉网 网络 网络 杉网 that fail. 络 源、VPC、IP、可用区、事件… 络 分析与预测 观测点位置: 数据记录位置
7 .云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 调用、追踪和全栈 云杉 调用依赖 云杉 云杉 云杉 云杉 网络 网络 网 络 服务2 网络 网络 指定时间段内服务间调用的上下依赖关系 ① TraceID ② TraceID ③ TraceID ④TraceID ⑤ TraceID 应用1: 服务1 LB 服务3 服务4 服务5 访问追踪 云杉 云杉 绘制指定Transaction的路径 知识图谱 云 云杉 ⑥TraceID 云 网络 网络 杉网 POD 全栈链路 网络 POD 杉网 络 服务6 络 分段呈现指定端点 间网络虚拟化实现 任意路径中展开黄金数据 路径 应用2: 服务A 网关 关联多维数据、位置信息 VM 服务C VM API GW 服务E 云杉 云杉 任意节点关联知识图谱 云杉 云杉 云杉 网络 网络 网 络 网络 网络 任意节点关联调用关系 应用3: 服务I 服务II 服务III LB 服务IV 任意节点追踪上下路径 Host NFV Host 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络
8 .云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 覆盖混合云访问全场景的可观测性方案 应用、服务调用定界 网络定界,确定性能消耗点 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 分支机构 1 采集器 专属服务器 Region X,主区域 NoC、SoC、大数据运维、业 AZ 1 AZ n 务分析工具、IT审计平台等 控制器 控制器 云杉 云杉 云杉 云杉 云杉 分支机构 N 主控制器 备控制器 采集器 采集器 采集器 API 网络 网络 网 网络 网络 专属服务器 ESXi 专属服务器 公有云 Internet 络 KVM 采集器 采集器 KVM 容器 调用、追踪、全栈 采集点覆盖全链路 采集器 采集器 VPC互联 VPC 192.168.0.0/16 Internet 时序数据库 容器 时序数据库 DeepFlow在多地多数据中心部署 路由 服务 – 容器 – 虚拟机 –私有云+公有云+容器+微服务 NFV – 专线链路 ACL ACL 子网 192.168.0.0/24 子网 192.168.1.0/24 专有网络 Region Y 9万+容器节点 AZ 1 云杉 云杉 安全组 安全组 安全组 云杉 控制器 云杉 分钟级定界性能故障 云杉 网络 网络 采集器 容器 On VM 采集器 容器 On VM 采集器 Workload 控制器 从控制器 网 络 Metrics 从控制器 采集器 专属服务器 网络 网络 采集器 Aggregatable KVM 采集器 时序数据库 容器 时序数据库 API请求路径 延时 数据采集路径 Tracing Request scoped 请求 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 错误 网络 网络访问场景全覆盖 Logging Events
9 .云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 覆盖车联网云-边-端的可观测性方案 I. 车联网场景:V2C、V2V、V2X II. 覆盖云-边-端监控点 III. 云边端、车端可观测能力 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 云边端采集器、控制器、数据节点 集成与数据开放 云杉 云杉 云杉 云杉 CPU: 1Core 云杉 网络 网络 网 络 网络 MEM:1G 网络 带宽:支持传输指标数据、日志、数据包 云杉 云杉 云杉 通过VehicleID、TraceID、网络流等将车联网监控拼连起来云杉 云杉 网络 网络 网络 网络 网络 网络延时 云内服务 车端采集器:资源消耗、稳定性、自身监控 调用、追踪、全栈 车端拨测 CPU:200MHz MEM:256M 云带宽:仅传输指标数据,~业务流量的0.1% 杉网 云杉 云杉 云杉 云杉 络 车端拨测 应用错慢 性能状态 网络 网 络 网络 网络 全景视图、云端服务性能、服务能力评估、快速排障定位、 微服务调用关系、数据开放
10 .云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 网络 目 录 云杉 网络 云杉 网络 云杉 网络 云杉 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 1、DeepFlow可观测方案 2、产品及客户体会的愉悦时刻 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络
11 .云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 一些基本功能 快速过滤筛选一个微服务视角的调用依赖 云杉 云杉 云杉 云杉 端点:描述微服务、POD、Node、Workload等各类对象 云杉 网络 网络 网络 网络 网络 外圈大小微服务内呈现所设定主指标的数值高低 红色表示指标值超出设定阈值 点击端点、连线进行详细数据关联及更多分析操作 连线:描述调用关系,箭头方向描述调用与被调用的关系 粗细呈现微服务间所设定主指标的数值大小 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 云杉 云杉 云杉 展开容器POD 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络
12 .云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 一些基本功能 快速过滤筛选一个容器POD视角的调用依赖,展开全栈链路 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 点击展开全栈链路 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 快速选择切换各类型指标 网络 网络 应用延时; 网络延时;应用时延… 发送/接收比特;发送传输层载荷… 网络异常(重传、重置等);应用(http、DNS)异常…
13 .云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 一些基本功能 云杉 快速过滤筛选TraceID,展开访问追踪 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 服务调用边界 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 FlowID 关联网络日志及应用日志 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 网络边界
14 .云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 一些基本功能 服务由不同团队实现,并不是所有工 点击端点、连线进行多维数据关联及更多分析操作 程师都掌握全局调用关系, 云杉 云杉 云杉 云 杉网 云杉 网络 网络 网 络 针对端点的“调用关系”功能快速梳理 络 网络 依赖。 调用关系 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 知识图谱 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 流日志、应用日志 资源变更事件 云杉 云杉 云杉 云杉 云杉 网络 网络 比对各类型指标 网 络 网络 网络 应用延时; TCP建连延时;网络传输时延… 发送/接收比特;发送传输层载荷… 网络异常(重传、重置等);应用(http、DNS)异常…
15 .云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 举个例子 TCP重传比例过高,展开的全栈链路 问题:应用性能下降,用户端访问不稳定 云杉 2 描述容器POD(请求端) - 容器节点(请求端,物理服务器) - 容器节点(服务端,物 云杉 云杉 云 杉网 云杉 网络 网络 网络 理服务器) - 容器POD(服务端)全栈链路 络 网络 找到应用涉及的调用依赖拓扑, 1 使用时延,TCP连接,吞吐,重传等指标,排序查找服务、 重传问题出现在节点之间,分别查看两端容器节点。 节点、工作负载等热点, 3 从请求端容器节点指标分析得出,在11:28分TCP重传比例突增。 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 综上所述判断为请求端容器节点存在丢包现象,最终与排查确认节点上网卡 云杉 云杉 网络 网络 网络 网络 网络 MTU配置存在问题。
16 .云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 客户同学的愉悦时刻 云杉 云杉 云杉 [NFV] “各类网关的访问流量一清二楚” 云杉 云杉 [全景图] [效率] “非法访问路径全能看到” 网 络 “每天在云上‘猜’两个问题,现在每天可以处理20个问题,很爽!” 网 络 网 网络 络 [业务]“他们这个能直接看到店面的访问量” 网络 [云原生] “云上部署确实需要云原生架构” [扩展]“新协议的日志支持很快!” [取证]“那边再不轻易直接说是网络问题了” [云原生]“这个好,直接用我们云上存储。” [负载均衡] “明显是LB的配置问题!” [全景图] “分段展开性能确实很方便高效!” [采集]“正好符合我们统一采集的思路” [知识图谱]“现在可以闭着眼睛找云资源” [故障]“现在业务保障过来,我们不再被动,全清楚。” [可观测] “云设施监控视野更远了” 无他,惟手熟尔 [服务]“云杉网络工程师来了,压测赶紧打起来。” [全景图]“要的就是这张图” [服务调用]“他们这个好,一点就能看到服务关联关系!” [全栈]“卧*,这个牛*啊。直接打脸。” 云杉[可观测]“我们测试了很多产品,云杉这边还是可以的!” 云杉 [全景图] 云杉 “真正的云-边-端都能做到性能跟踪 ”云杉网 云杉 网[数据开发] 络 “整个部门都知道你们平台。” 网 络 网 络 络 零侵入 网络 [资源]“车载采集器资源就这么多,支持下!” [业务]“业务部门现在都看你们的数据。” [性能]“一眼就找到性能洼地,工作会现在就谈这个” [微服务]“我们都是掌握微服务调用逻辑的。” [性能] “帮我们也看看ES的性能问题。” [DNS]“直接看DNS的返回状态” 就是分钟级定界故障 [自豪]“总问我们组上了一个什么系统” [全景图] “现在应用一变,我们就知道,比他们都清楚!” [NFV][指标] [网关]“一对比就明显是网关区域瓶颈” [Http] “URL和TraceID能关联到流日志不?” “网关区一团麻,终于可以搞清楚了。” “现在分分钟搞定网关丢包、建连失败” 指数级降低排障时间 [故障]“问题已经反复两个月了,找不到根因,现在这么直接!” [全栈] “这个骚气!” [效率]“故障可回溯留证,我们一、二线的压力明显小了” 云杉 云杉 云杉 [eBPF]“网关前后可以直接做到访问关联,这样就把业务串联起来了。” [效率] “之前对虚拟网络根本没有手段,只能试。” 云杉 云杉 网[流量分发]“云上流量在我们这控制” 络 网 络 网 络 网络 网络 [功能] “新版本给我们先上线” 点击,展开调用依赖 [全景图] “应用那边不信,看了分析后确实做了变更。” [全景图] “一张图就能搞定” [指标] “我们现在抓包基本上不用了” [微服务] “用按服务分组,我们现在直接可以对到应用上。” [业务] “他们这个能直接看到咱们各门店的访问量和延时” [效率]“我们有更多时间思考发展问题” [客户]“听过你们,说还不错!” [数据关联] “Skywalking那边关联到网络后,直接可以明确范围,再不找我们了” 点击,展开全栈链路 [规模]“之前只想部署在关键节点,现在需要全覆盖。给我们都上上,另外再便宜些。” 云杉 [SLI] “我们现在给微服务团队做服务能力评估” 云杉 云 云杉 云杉 网络 网 [故障]“居然这么快搞定了!” 杉网 [NFV] “定位跨区域的流量周期突发原因,造成业务访问延时。” 网 网络 络 络 络 点击,展开事务追踪 16
17 .云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 开放的可观测性方案 云原生 数据开放 开 源 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 MetaFlow Project 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 云原生架构 订阅服务 开放合作 服务质量SLO及SLI 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络
18 .云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 如何开启愉悦时刻 云杉 网络 那就是联系我们! 云杉 网 云杉 网 云杉 网络 云杉 网络 络 络 我们希望面向更多行业,将可观测能力应用到更广泛的客户场景中 想要不改变应用,就能观测云上应用的同学 云杉 还在容器微服务的不明朗局面中摸索的同学 云 云 云杉 云杉 网络 杉网 杉网 网络 网络 络 还在为混合云保障挠头的客户同学 络 合作与客户支持 还在被云中网微服务调用关系所折磨的同学 400-969-6121 … 合作: 云杉 云杉 云杉 云杉 云杉 网络 网 混合云整体方案中缺少监控板块的合作同学 络 网络 网络 网络 面临云中监控新需求但产品空缺的合作同学 安全方案中获取不到云内流量的合作同学 … 云杉 云 杉网 云 杉网 云杉 云杉 网络 我们希望持续开启更多愉悦时刻,欢迎加入云杉 网络 欢迎加入 网络 络 络 看好可观测发展,有志在可观测性领域探索的同学
19 .云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 祝大家今晚愉悦 云杉 网络 云杉 网络 谢谢大家 云杉 络 网 云杉 网络 云杉 网络 云杉网络 联合创始人兼COO 来 源 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络
20 .云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 网络流量采集及预处理 分光 云杉 云杉 端口镜像 云杉 云杉 云杉 网络 网络 网络 网络 网络 控制器集中跟踪各采集器工作状态,下发 采集策略,记录统计工作历史。 云杉 云杉 sFlow 、NetFlow 云杉 云杉 解决客户多类型资源池中的流量,尤其是 云杉 网络 网络 网络 1网络 网络 sFlow 、NetFlow 端口镜像 东西向流量,获取的问题。 TAP 对数据包具备分布式处理能力,避免集中 2 处理的性能瓶颈。 云杉 云杉 容器 云杉 云杉 云杉 网络 网络 网 络 网络 网络 ESXi KVM On VM 裸金属设备 解耦采集与分析终端,避免多探针重复安 On Host 3 采集器 采集器 采集器 采集器 采集器 装、探针绑定的问题。 专属服务器 ESXi KVM 容器 On VM 专属服务器 云杉 云杉 采集器 容器 On Host 云杉 4 云杉 物理网络、池内网络统一管理 云杉 网络 网络 网络 网络 网络 预处理 过滤 去重 压缩 截短 标记 图 资源池类型及流量采集能力
21 .云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 混合云流量采集技术 DeepFlow 云杉 业务VM 业务VM 云杉 业务VM 云杉 云杉 业务POD 业务POD云杉采集POD 业务POD 网络 网络 网 络 网络 网络 (HostNet) DeepFlow vSwitch / Bridge 采集器进程 CNI vSwitch / Bridge DaemonSet 虚拟化 - KVM 容器 - K8s Node (VM/BM) 云杉 • A类采集器 云杉 云杉 • 云杉 A类采集器 云杉 网络 • 网络 零干扰:无需对vSwitch和KVM做任何配置、不监听任何端口网络 • 网络 网络 零干扰:无需对vSwitch和Node做任何配置、不监听任何端口 • 零依赖:用户态进程部署运行,无任何Lib依赖 • 全自动:DaemonSet POD部署运行,随K8s自动扩展 • 零侵入:不侵入业务VM,一个进程采集所有业务VM流量 • 零侵入:不侵入业务POD,可采集所有业务POD及本Node流量 业务 业务 业务 采集 与其他采集技术对比: 云杉 云杉 POD POD POD 云杉POD 云杉 云杉 网络 业务VM 网 业务VM 络 网络 网络 网络 1 不需要对vSwitch做任何策略配置 br 2 生产平面,监控平面交界面清晰 业务VM (K8s Node) 3 采集器进程级部署软件无依赖 DeepFlow 4 通过计算节点自身系统能力流量获取,进程级保障系统稳定性。 vSwitch / Bridge 采集器进程 云杉 云杉 云杉 云杉 云杉 5 单一采集器可以获取宿主机/容器节点上所有的VM/PoD流量。 网络 网络 网 络 网络 网络 虚拟化 - KVM • C类采集器 • 宿主机+KVM + K8s混合场景,自动切换流量采集,最低消耗采集全网流量
22 .云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络
23 .云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 面向云原生的可观测能力 DeepFlow产品方案广泛得到客户以及云平台合作伙伴应用并认可。 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 为客户 补齐云架构中保障侧的那块拼图 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络
24 .云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 DeepFlow使用案例 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络
25 .云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 DeepFlow使用案例 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络
26 .云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 DeepFlow使用案例 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络
27 .云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 方案价值:大幅提升排障效率 云杉 云杉 云杉 云杉 云杉 网络 网络 网 络 网络 网络 分钟级定位界故障范围 1 ➢ Overlay网络以及Underlay网络 ➢ 快速划分部门跟进,对应工单下发 云杉 云杉 云杉 云杉 云杉 网络 网络 网 网络 网络 络 根因分析 2 ➢ 指数级降低根因分析时间 明确排障目标 云杉 云杉 云杉 云杉 3 云杉 ➢ 根因准确保证排障目标性 网络 网络 网 络 网络 ➢ 建议解决方案 网络 验证修复 4 ➢ 确认平台指标正常 ➢ 确认故障修复 云杉 云杉 云杉 云杉 云杉 ➢ 增加报警指标以及SLI 网络 网络 网 络 网络 网络
28 .云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 SRE 量化、提升微服务可靠性 DeepFlow提供精准量化指标,完善面向云环境中微服务的 以生产环境一周数据为例: 网络传输异常统计 SLO、SLI体系建设 云 杉网 云杉 云杉 云杉 云杉 建连失败9.6M次、端口复用0次、重置9.5M次、队列溢出0次、半关0 络 网络 网络 次、连接超时507K次 网 络 网络 网络传输异常 应用服务异常统计 建连失败、端口复用、重置、队列溢出、半关、连接超时 HTTP异常428次、4XX异常202次、5XX异常226次、HTTP服务端超时 0次、DNS异常210K次、DNS服务端超时1.6M次 *上述异常中建连失败、DNS服务端超时经确认均为测试K8s集群组件重启导致 HTTP/DNS异常,经确认网络侧没有问题,判断为应用侧重启/变更时的导致 云杉 云杉 云杉 云杉 无新建/并发的突增,无异常攻击 云杉 网络 网络 网络 网络 网络 应用服务异常 HTTP异常、HTTP 4XX/5XX异常、HTTP服务端超 时,DNS异常、DNS服务端超时 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网络 异常攻击 SYN Flood/DDoS攻击/端口扫描:新建连接、并发 连接、客户端SYN结束 云杉 云杉 云杉 云杉 云杉 网络 网络 网络 网络 网 络 本周内部服务可用性 = 1-(0.17h+0.17h)/7*24h ≈ 0.998,未达到 SLO (gateway+ingress 5XX异常中断服务各10分钟)