Apache pulsar 在甜橙金融的应用及流计算平台的建设实践

展开查看详情

1.Apache pulsar 在甜橙金融的应用及流 计算平台的建设实践 张璐波 甜橙金融大数据部架构师,目前工作主要围绕实时风控、智能风控等业务领域以及 流计算平台的搭建。曾就职于Intel大数据部,负责Spark 相关组件的优化。

2. Contents 01 业务背景 02 Apache Pulsar介绍 Spark streaming 03 批流融合实践 04 自适应执行优化 05 甜橙金融流计算平台演进 06 QA

3.Background Intro

4. 甜橙金融成立于 2011 年 3 月,是互联网金融行业领先的创新企业,是中国人民银行核准的第三方支 付机构。旗下设翼支付、甜橙信用、橙分期、甜橙小贷、甜橙理财、交费易等子品牌。目前甜橙金融有 超 5 亿注册用户,每月活跃用户超过 4 千万。

5.国内移动支付市场近年的增长情况

6.国内移动支付市场近年的增长情况

7. 挑战 • 高并发:峰值交易量超过 5000 万,每天处理 10 亿+事件(高峰期达到 35K/s)。 • 低延迟,响应速度要控制在 200ms 内。 • 大量的批处理作业和流处理作业

8.Architecture V1 API Gatew ay

9.Introduce Apache Pulsar

10.Pulsar - A cloud-native architecture Apache Pulsar 采用了计算和存储分层的架构和以 Segment 为中心的分片存储。Pulsar 集群由两层组成:无状态服务层, 由一组接受和传递消息的 broker 组成;分布式存储层,由一 组名为 bookies 的 Apache BookKeeper 存储节点组成,具 备高可用、强一致、低延时的特点

11.Pulsar - A cloud-native architecture

12.Structured Streaming

13. Structured Streaming--MicroBatch https://databricks.com/blog/2018/03/20/low-latency-continuous-processing-mode-in-structured-streaming-in-apache-spark-2-3-0.html

14. Continuous Processing https://databricks.com/blog/2018/03/20/low-latency-continuous-processing-mode-in-structured-streaming-in-apache-spark-2-3-0.html

15.Architecture V2 Spark Structured Streaming Spark SQL API Gateway

16.Pulsar-Spark / Streaming Queries https://github.com/streamnative/pulsar-spark

17.Pulsar-Spark / Batch Queries https://github.com/streamnative/pulsar-spark

18.优势 ❏ 集群复杂度降低 ❏ 节省了存储空间 ❏ 基于SQL处理,开发效率提升 ❏ 统一的架构带来了更高的稳定性

19.Spark streaming自适应执行优化

20.Spark Streaming 优化案例 业务日志监控系统

21.Spark Streaming 调优 Kafka Direct consume • 增加资源 • 调整并行度 • 设置合理batch时间

22.Spark Streaming 调优

23.Spark Streaming 调优

24.Spark Streaming 调优

25.Spark Streaming 调优

26.甜橙金融实时计算平台演进

27. 大数据部 业务数据 实时计算 成立 开发 平台化 2018.1 2019.1 2019.11 • 多个实时计算集群 • Spark作业提交 • 单实时计算集群 • (spark、flink、 pulsar、 • Flink作业提交 • 一个线上任务 • kafka connect) • Stream SQL • 数据同步平台Datahub • 高性能实时指标平台

28.平台架构 用户 任务开发,任务运维、监控, 前端 日志查看,租户、权限、管控… 提交Spark任务、 API Flink 任务 任务队列 监 控 节点状态 告 worker 集群 Worker-1 Worker-2 Worker-3 警 模 块 任务状态 yarn集群 Hadoop-1 Hadoop-2 集群 集群 ZK集群

29.任务类型 -- Spark作业模式 任务监控指标