智联ApachePulsar之路

展开查看详情

1.智联Apache Pulsar之路路 从3000万到60亿+ 演讲者 李李鹏辉

2.个⼈人介绍 李李鹏辉 智联招聘平台架构组研发⼯工程师、Apache Pulsar Commiter 2017年年初加⼊入智联,消息系统落地及研发

3.⼀一、智联消息系统发展历史 ⼆二、Pulsar在智联的现状 三、消息系统到流数据平台 四、社区贡献

4.智联消息系统发展历史 各⾃自为战 -> 平台化

5.各⾃自为战 痛点 B端 数据团队 运维问题 跨团队成本⾼高 MSMQ Kafka 业务⽅方做更更多的妥协 单队列列⽆无法扩展 服务⾼高可⽤用 C端 RabbitMQ

6.平台化 第⼀一阶段 解决的问题: 运维问题 职位服务 简历服务 投递服务 但队列列扩展问题 Thrift HTTP MQTT 服务⾼高可⽤用 痛点: MQService 消息存储能⼒力力 RabbitMQ RabbitMQ RabbitMQ RabbitMQ RabbitMQ 消息回溯 消息顺序性

7.平台化 第⼆二阶段 解决的问题: 数据容灾能⼒力力 业务 流批处理理 Queue + Streaming 存储能⼒力力(⽆无限流) Queue Streaming 消息回溯 Pulsar

8.Pulsar 在智联的现状 覆盖20+核⼼心业务、⽇日均60亿+

9.⼤大事记 技术选型 正式在智联开放服务 ⽇日均消息分发30亿+ 项⽬目验证 ⽇日均消息量量10亿+ 2018年年7⽉月 2018年年9⽉月 2018年年10⽉月 2018年年11⽉月 2018年年12⽉月 2019年年2⽉月 Apache Pulsar毕业 获得智联内部最佳创新奖 ⽇日均消息分发60亿+ Infoworld最佳开源数据平台奖

10.核⼼心业务覆盖 ⽤用户⾏行行为 Passport鉴权 简历变更更 订单同步 知识图谱 投递服务 ⻛风控 ⽇日志总线 简历服务 ⽀支付系统 消息中⼼心 IM Data Processing 数据仓库 职位服务 搜索推荐 短信服务 职场竞争⼒力力

11.部署情况 IDC-A IDC-B ALI-CLOUD 5裸机 5裸机 48 cores 8 ECS(3 + 5) 56 cores 256G memory 16 cores 384G memory 8TB SSD ⾮非PCIe Raid0 64G memory 2TB SSD ⾮非PCIe Raid10 千兆 -> 万兆⽹网卡 2TB 本地SSD 万兆⽹网卡 同步刷盘 -> 异步刷盘 Broker Bookie 分离 Broker Bookie 同机 Broker Bookie 同机 Journal Data 分离 Journal Data 未分离 Journal Data 分离 2018年年8⽉月 2018年年10⽉月 2018年年11⽉月

12.Metrics Overview Write 100K+/s Read 200K+/s Network In 190MB+/s Network Out 550MB+/s Latency 99.5% < 5ms

13.Latency 对⽐比 IDC-A IDC-B Latency 99.7% < 5ms Latency 99.3% < 5ms

14.机器器的⽹网络使⽤用情况 190MB * 8bit / 10 = 152Mbps Avg 417Mbps

15.Broker 层的⽹网络 Client In Out Broker Broker In <= 2x Out = 2x Out In 90% 情况不不⽤用担⼼心 Bookie

16.Bookie 层的⽹网络 Broker In Out 90% 情况不不⽤用担⼼心 Bookie In = 1x Out <= 1x Bookie

17.消息系统到流数据平台 挖掘Pulsar的价值

18.流数据平台 Flink Pulsar SQL Hive Steaming Layer Pulsar Tiered Storage S3 HDFS OSS

19.流对流的转换 Table -> Table Streaming -> Table Streaming -> Streaming Table -> Streaming Streaming -> Streaming

20.流批⼀一体 Hive Topic Topic Topic Topic Streaming Processing

21.社区贡献

22.智联招聘对社区的贡献 MessageTracker Hive Pulsar Integration Multi Version Schema

23.谢谢