严锁鹏 - Kafka在360商业化的实践

360大数据技术团队负责人严锁鹏分享《Kafka在360商业化的实践》

展开查看详情

1. kafka在360商业化的实践 演讲人:严锁鹏 2019 中国数据智能管理峰会

2. 个人简介 近10年基础架构与大数据开发经验,2013年加入360商业化 团队,负责消息队列系统,消息落地系统,实时计算平台等基础架构 开发与运维。同时涉及微服务架构,监控系统等基础设施,致力于为 商业化团队提供稳定高效的基础服务。 2019 中国数据智能管理峰会

3. Agenda Why kafka 360商业化kafka现状 kafka client框架 数据高可用 负载均衡 Authorization and ACLs Quota机制 跨IDC数据同步 监控告警 Tools 线上问题与解决 2019 中国数据智能管理峰会

4. Why kafka 数据可靠性 延迟 单机吞吐 社区 客户端 ActiveMQ 中 / 万级 不太活跃 支持全面 RabbitMQ 高 微妙级 万级 活跃 支持全面 KAFKA 高 毫秒级 十万级 活跃 支持全面 RocketMQ 高 毫秒级 十万级 有待加强 有待加强 2019 中国数据智能管理峰会

5. Why kafka high performance sendfile + pagecache apend file high available replica + isr fault tolerance controller: 集群级别管理 coordinator: 业务级别管理 CAP trade-off 高一致性或高可用可配置 consumer groups 可独立重复消费,可回放 2019 中国数据智能管理峰会

6. Why kafka 2019 中国数据智能管理峰会

7. 360商业化kafka现状 千亿级日志量,PB级数据量 集群规模: 100+ 万兆网卡机器 topic最大峰值60w qps 集群峰值500w qps 2019 中国数据智能管理峰会

8. 360商业化kafka现状 物理机配置 cpu: 24 network: 10Gb/s mem: 128GB disk: HDD 4TB*12 JBOD/RAID10 (JBOD recommend) kafka版本1.1.1 (0.11+ recommend ) 2019 中国数据智能管理峰会

9. 360商业化kafka现状 2019 中国数据智能管理峰会

10. kafka client框架 设计原则 极端情况下可用, 网络或集群异常 框架处理所有细节,业务接口简单,减少业务犯错可能 LogProducer Framework at least once语义 LogConsumer Framework at least once语义 exactly once语义: 业务需实现rollback逻辑 2019 中国数据智能管理峰会

11. kafka client框架 2019 中国数据智能管理峰会

12. kafka client框架 2019 中国数据智能管理峰会

13. 数据高可用 replica + isr是不够的,replica rack aware 2019 中国数据智能管理峰会

14. 负载均衡 经典一致性hash不能解决负载均衡问题 2019 中国数据智能管理峰会

15. 负载均衡 2019 中国数据智能管理峰会

16. 负载均衡 基于虚拟节点的一致性hash 添加移除节点仅需迁移很小部分数据 通过权重设置支持不同性能机器加入集群(虚拟节点数量作为权重) replica rack aware 基于disk rebalance与leader负载 kafka支持版本1.1.0+ 2019 中国数据智能管理峰会

17. Authorization and ACLs 白名单机制 工单流程管理合法topics, consumers, 定期监测非法topics, consumer group 并做deny处理 基于用户鉴权,授权机制 基于SSL/SASL 鉴权 需要客户端设置支持 会有一定的性能损耗 2019 中国数据智能管理峰会

18. Quota机制 两种Quota类型: 限制网络带宽 限制请求速率 三个业务优先级:高,中,低,确保高优先级业务稳定性 可批量对某优先级业务做升降级操作 2019 中国数据智能管理峰会

19. 跨IDC数据同步 基于mirrormaker IDC间数据只同步一份 所有业务只做本IDC读写 基于mesos + marathon paas化,提高服务SLA 2019 中国数据智能管理峰会

20. 跨IDC数据同步 2019 中国数据智能管理峰会

21. 跨IDC数据同步 2019 中国数据智能管理峰会

22. 监控告警 jmx exporter + prometheus + grafana kafka manager burrow wonder 2019 中国数据智能管理峰会

23. 监控告警 2019 中国数据智能管理峰会

24. Tools deploy tool: ansible-playbook migration tool rebalance tool offset reset tool 2019 中国数据智能管理峰会

25. 线上问题与解决 磁盘故障检测: smartctl -a /dev/sda(PASSED && 197 Current_Pending_Sector) bootstrap.server性能瓶颈 : vip bind consumer重启不消费: https://issues.apache.org/jira/browse/KAFKA-5413 升级到0.11+版本 使用kafka-offset-reset工具做group迁移 2019 中国数据智能管理峰会

26. Q&A 2019 中国数据智能管理峰会

数据连接未来!围绕Database、Bigdata、AiOps的企业级专业社群。行业大咖、技术干货,每天精品原创文章推送,每周线上技术分享,每月线下技术沙龙,受众20W+。
关注他