今日头条 郑建磊 - 《容器云在头条的落地和实践》

展开查看详情

1.容器云在头条的落地和实践 演讲者/郑建磊

2. TCE (Toutiao Compute Engine)

3. PAAS 目 Part 1 05~11 IAAS Part 2 12~16 录 CONTENTS Part 3 网络 17~19 Part 4 物理机管理 20~21 Part 5 收益 22~23

4. SCM 平台 PAAS Build K8S Manager K8s集群 IAAS 网络 Docker 物理机管理

5.CHAPTER 01 PAAS

6. SCM 平台 TOS/CEPH BUILD K8S Manager HUB 多个K8S集群

7.SCM

8.服务管理

9.服务管理

10.服务上线

11.上线单状态任意控制 上线效率 ! 问题 更细粒度资源管理 服务稳定性

12.CHAPTER 02 IAAS

13. K8S层 上线单状态任意控制 RC -> Deployment 滚动升级 -> 原地升级 上线效率 cpu超售 抢占式调度 镜像P2P分发 & 预拉取 更细粒度资源管理 端口 cpuset & numa

14. Docker层 commands such as 'docker run' and 'docker ps' appear to hang indefinitely due to huge request backlog (congestion) in containerd dockerd leaks ExecIds on failed exec -i 上线效率 Runc init block containerd-shim residue 服务稳定性 cgroup, net_cls: iterate the fds of only the tasks which are being migrated

15. 系统层 OOM + 驱逐 内存 磁盘 清理 + 驱逐 服务 稳定性 cgroup + 驱逐 CPU IO 硬件隔离

16. 系统层 USE: For every resource, check utilization, saturation, and errors.

17.CHAPTER 03 网络

18. 网络模式 Bridge Host AutoHost kernel space user space application hbind.ko syscall bind() hook sys_call_table bind to hookbind write /dev/hbind

19. 服务发现 端口冲突 Readinessprobe 服务状态 Consul -> NameKeeper

20. 物理机 CHAPTER 04 管理

21. 物理机管理 Agent -> DaemonSet Mesos (TCE Allocator)

22.CHAPTER 05 收益

23. 1 资源利用率 2 运维效率 3 流量调度与业务解耦