大数据架构下的质量工具建设

王逍凝发布于2018/11/29 15:19

注脚

1.大数据架构下的质量工具建设 孔祥云 2018/4/20

2.

3.

4. 1 质量工具面临的数据挑战 2 稳定性监控系统的数据挑战 目录 CONTENTS 3 实时应对方案 4 智能接口平台的数据挑战 5 智能应对方案

5.我是谁? 《京东系统质量保障技术实战》作者之一, 多年测试领域从业经验,擅长功能测试、自动 化测试、测试工具开发等。 在京东任职期间参与开发EAT测试框架、 Mock接口测试平台、自动部署系统、商城质量 门户等;主导应用大数据技术的接口稳定性监 控平台、接口变更探测工具等。

6.质量工具面临的数据挑战 规模 计算 千万级别数据 操作百万级别数据 数据存储瓶颈 亚秒级响应

7.稳定性监控系统的数据挑战——背景 接口 监控 稳定性

8.稳定性监控系统的数据挑战——背景 接口 时间 可用率折线图 接口描述信息 Ø  接口的稳定性数据采集后,虽然直观,但是不能对整个应用有好的表达 Ø  一般查询只提供了单个接口的方式,不能查询较长时间、多接口的稳定性数据 Ø  不是基于业务场景的,非开发人员无法映射到具体的业务场景上

9.稳定性监控系统的数据挑战——目标 l 直观展示多维度稳定性趋势 多时间跨度 多业务场景 多层次

10.稳定性监控系统的数据挑战——难点分析 l 实时性 Ø  每秒稳定性数据采集频次: 100(应用)* 100(接口) * 5(分钟)/ 60(秒) = 833 ≈ 1000 Ø  及时反映稳定性变化 采集频率5分钟 变化频率10分钟

11.稳定性监控系统的数据挑战——难点分析 l 海量数据 Ø  数据量大: 单个应用: 100(接口)* 24(小时)* 60(分钟)/ 5(分钟) = 28800 28800(条) * 365(天) = 10,512,000 Ø  维度多: 方法 应用 服务 系统

12.实时应对方案 l 涉及到的技术模块 ü  采集worker ü  实时计算storm ü  前端展示pma

13.实时应对方案 l 采集worker的及时性

14.实时应对方案 l 采集worker的失败重采机制

15.实时应对方案 l 及时展示变化数据的大数据方案 离线计算 准实时计算 实时计算

16.实时应对方案 l Storm 特性 Ø  实时性

17.实时应对方案 l Storm使用中的问题及解决 Ø  数据落盘方案:HBase ü  数据条数2000万+,数据量PB级别 ü  横向领域扩展:新维度tag ü  纵向字段扩展:新增字段 Ø  数据计算方案:Redis ü  Set集合

18.实时应对方案——效果展示

19.智能接口平台的数据挑战 l  背景 数据准备 回归用例 用例选择

20.智能接口平台的数据挑战 l  目标 分类

21.智能接口平台的数据挑战 l 数据挑战 Ø  接口:1000(目前接入100个接口) Ø  每天积累数据:50万+ Ø  每天训练量:100万+

22.智能应对方案

23.智能应对方案 l 采集方案选择 日志 中间件 应用Filter

24.整体方案之机器学习 l 机器学习工具选择 R Spark 机器学习类库 √ √ 语言支持 R语言 Scala, Java, Python, R 计算性能 几十万数据 百万以上级别数据

25.整体方案之机器学习 l 数据建模过程中的点滴 u 预处理:混合型数据 —— Gower距离

26.整体方案之机器学习 l 数据建模过程中的点滴 u Kmeans K中心点选择—— 轮廓系数 MLlib内置的WCSS类方法评估聚类模型的性能 WCSS for k=2 : 0.685 WCSS for k=3 : 0.71 WCSS for k=4 : 0.653 WCSS for k=5 : 0.676 WCSS for k=10 : 0.51465 WCSS for k=20 : 0.4684

27.整体方案之机器学习 l 数据建模过程中的点滴 u 聚类后业务评估

28.整体方案之未来规划 数据分类 1 优选数据集 2 3 精准测试 接口覆盖率 无人值守测试 Code Diff

29.Q&A

30.

31.

32.

33.

34.谢谢

user picture

相关Slides