严锁鹏-Kafka在360商业化的实践

高数据可靠性、毫秒级延迟、十万级单机吞吐……这些Kafka的优点大家并不陌生,但为什么360最终选择了Kafka?在这段分享中,严锁鹏老师详细介绍了360商业化afka的现状,并展示了他们实现kafka client框架、数据高可用、负载均衡、Authorization and ACLs、Quota机制、跨IDC数据同步、监控告警等的细节。

展开查看详情

1.kafka在360商业化的实践 演讲人:严锁鹏 全球敏捷运维峰会 北京站

2. 个人简介 近10年基础架构与大数据开发经验,2013年加入360商业 化团队,负责消息队列系统,消息落地系统,实时计算平台等基 础架构开发与运维。同时涉及微服务架构,监控系统等基础设施 ,致力于为商业化团队提供稳定高效的基础服务。 全球敏捷运维峰会 北京站

3. Agenda Why kafka 360商业化kafka现状 kafka client框架 数据高可用 负载均衡 Authorization and ACLs Quota机制 跨IDC数据同步 监控告警 Tools 全球敏捷运维峰会 北京站

4. Why kafka 数据可靠性 延迟 单机吞吐 社区 客户端 ActiveMQ 中 / 万级 不太活跃 支持全面 RabbitMQ 高 微妙级 万级 活跃 支持全面 KAFKA 高 毫秒级 十万级 活跃 支持全面 RocketMQ 高 毫秒级 十万级 有待加强 有待加强 全球敏捷运维峰会 北京站

5. Why kafka high performance sendfile + pagecache apend file high available replica + isr fault tolerance controller: 集群级别管理 coordinator: 业务级别管理 CAP trade-off 高一致性或高可用可配置 consumer groups 可独立重复消费,可回放 全球敏捷运维峰会 北京站

6. Why kafka 全球敏捷运维峰会 北京站

7.360商业化kafka现状 千亿级日志量,PB级数据量 集群规模: 100+ 万兆网卡机器 topic最大峰值60w qps 集群峰值500w qps 全球敏捷运维峰会 北京站

8. 360商业化kafka现状 物理机配置 cpu: 24 network: 10Gb/s mem: 128GB disk: HDD 4*12TB RAID10/JBOD kafka版本1.1.1 全球敏捷运维峰会 北京站

9.360商业化kafka现状 全球敏捷运维峰会 北京站

10. kafka client框架 设计原则 极端情况下可用: 网络或集群异常 框架处理所有细节,业务接口简单 LogProducer Framework at least once语义 LogConsumer Framework at least once语义 exactly once语义: 业务需实现rollback逻辑 全球敏捷运维峰会 北京站

11.kafka client框架 全球敏捷运维峰会 北京站

12.kafka client框架 全球敏捷运维峰会 北京站

13. 数据高可用 replica + isr是不够的,replica rack aware 全球敏捷运维峰会 北京站

14. 负载均衡 经典一致性hash不能解决负载均衡问题 全球敏捷运维峰会 北京站

15. 负载均衡 全球敏捷运维峰会 北京站

16. 负载均衡 基于虚拟节点的一致性hash 添加移除节点仅需迁移很小部分数据 通过权重设置支持不同性能机器加入集群(虚拟节点数 量作为权重) 全球敏捷运维峰会 北京站

17.Authorization and ACLs 白名单机制 工单流程管理合法topics, consumers, 定期监测非法 topics, consumer group并做deny处理 全球敏捷运维峰会 北京站

18. Quota机制 两种Quota类型: 限制网络带宽 限制请求速率 三个业务优先级:高,中,低,确保高优先级业务稳定性 可批量对某优先级业务做升降级操作 全球敏捷运维峰会 北京站

19. 跨IDC数据同步 基于mirrormaker IDC间数据只同步一份 所有业务只做本IDC读写 基于mesos + marathon paas化,提高服务SLA 全球敏捷运维峰会 北京站

20.跨IDC数据同步 全球敏捷运维峰会 北京站

21.跨IDC数据同步 全球敏捷运维峰会 北京站

22. 监控告警 jmx exporter + prometheus + grafana kafka manager burrow wonder 全球敏捷运维峰会 北京站

23. 监控告警 全球敏捷运维峰会 北京站

24. Tools deploy tool: ansible-playbook migration tool rebalance tool offset reset tool 全球敏捷运维峰会 北京站

25. Q&A 全球敏捷运维峰会 北京站

数据连接未来!围绕Database、Bigdata、AiOps的企业级专业社群。行业大咖、技术干货,每天精品原创文章推送,每周线上技术分享,每月线下技术沙龙,受众20W+。