申请试用
HOT
登录
注册
 
eBay 高可靠性生产集群监控与修复

eBay 高可靠性生产集群监控与修复

ccone
/
发布于
/
6441
人观看
eBay 在不同地区的全球数据中心运行着数十个 Kubernetes 集群。有成千上万个节点支持搜索和大数据等 eBay 核心服务。复杂的大型跨区域生产集群和需要极高集群稳定性的工作负载使得监控和修复成为我们面临的一项巨大挑战。基于 prometheus 联邦、组件断言、指标 exporter 和我们自身的监控工具,我们构建了一系列清晰的控制面板,然后实施了完整的跨集群修复流程以及事件管理和监控自动化。在本次演讲中,我们希望分享我们的大规模 Kubernetes 生产集群监控经验和未来构想。
0 点赞
0 收藏
3下载
相关文档
确认
3秒后跳转登录页面
去登陆