如何快速进行数据处理
如何对关键指标监控及预警
如何进行从端到服务的链路分析

注脚

展开查看详情

1. 支付宝无线 从前端到后端的服务治理 阿里巴巴集团 - 支付宝 - 无线基础技术部 - 庞磊 邮箱:lei.panglei@alibaba-inc.com 1

2.2015-6-3

3.2015-6-3

4. 大纲 现状与挑战 服务治理场景 服务治理的实现 4

5.现状与挑战 5

6. 支付宝无线现状 200 多个系统 60亿请求 支付宝 无线 上千台服务器 几百人规模 6

7.服务治理挑战 如何快速进行数据处理 如何对关键指标监控及预警 如何进行从端到服务的链路分析 7

8. 大纲 现状与挑战 服务治理场景 服务治理的实现 8

9.服务治理场景

10.重点指标监控 性能 流畅 闪退 度 电量 流量 10

11. 问题快速定位 open_page:ViewController click:ViewController:ButtonId 应用B RPC Network:WIFI,RPC 应用A 2015-09-25 应用C 10:10:10.111 open_page:ViewController2 click:ViewController:ButtonId1 应用F RPC Network:WIFI,RPC 应用D 应用E 2015-09-25 10:12:10.111 客户端 服务 11

12. 链路分析 消息服务 收消息 服务器 应用C 调用 读写文件 无 发消息 分布式 服务器 应用G 文件系统 线 收消息 调用 客户端 网 调用 关 应用B 读写缓存 服务器 分布式 调用 应用F 缓存 应用A 存 服务器 缓 写 调用 服务器 应用E 数据库 调用 JDBC 12

13. 故障自动分派 Crash Bug 服务治理 … 13

14. 大纲 现状与挑战 服务治理场景 服务治理的实现 14

15.服务治理的实现 15

16. 日志数据处理流程 可视化展现 日志数据采集 实时计算 存储 预警 故障分派

17.实时计算平台 17

18. 实时计算架构 REST API 日志 指标 合并 告警 levelDB HBase 流出 计算 任务 任务 计算 任务 MySQL InfoBright Jstorm 存储 消息队列 日志采集 18

19. 日志数据采集 业务服务器 LogAgent 日志中心 客户端日志采集 LogAgent 19

20. 实时计算 指标计算 distinct map reduce merge 日志 存储 中心 map reduce merge 日志流出 JStorm 20

21. 报警 指标监控 计算 阀值报警判定 发送报警信息 计算公式 Groovy脚本报警 判定 21

22.日志模型 22

23. 日志关系 设备1对应日志 设备1 用户 设备2对应日志 设备2 23

24. 日志模型 • UI切换 行为日志 • 点击事件 • H5页面 性能日志 • 网络日志 • 业务性能埋点 异常日志 • 闪退日志 • 流量&电量日志 服务端日志 • Tracelog • 业务日志 24

25. 客户端 主要指标及处理 25

26. 闪退处理 日志采集 流出/计算 定时任务 栈分析 闪退日志 闪退报告 HBase MySQL Crash 26

27. 电量&流量统计 日志采集 指标计算 展现 HBase Log Agent 电量监控 流量监控 Alipay Mobile SDK 27

28. 性能计算 L1 L3 20.33ms 50.66ms Time1,BIZ_KEY1, level1=20ms^level2=50ms,level3=50ms Time2,BIZ_KEY1, level1=21ms^level2=55ms,level3=52ms L2 Time3,BIZ_KEY1, 51.66ms level1=20ms^level2=50ms,level3=50ms BIZ1 日志采集 指标计算 展现 HBase time,BIZ_KEY1,level1={sum:61,cnt:3} time,BIZ_KEY1,level2={sum:155,cnt:3} time,BIZ_KEY1,level3={sum:152,cnt:3} 28

29.服务日志处理 29