云智天枢AI中台架构及AI在K8S中的实践

腾讯云资深技术专家黄文才,从云智天枢平台的整体架构出发,揭秘AI在K8S中的具体实践,为大家带来“云智天枢AI中台架构及AI在K8S中的实践”等干货内容,获得现场小伙伴的好评。

他分享的内容主要分三部分:

第一,云智天枢平台架构。

第二,各核心窗口的架构设计。

第三,AI在K8S中的实践经验。

云智天枢平台是支持快速接入各种算法、数据和智能设备,并提供可视化的编排工具进行服务和资源的管理和调度。进一步通过AI服务组件持续集成和标准化接口开放,帮助开发者快速构建AI应用。

总的来说,平台的定位是全栈式人工智能服务平台,实现与应用、算法、设备等合作伙伴共赢,合作伙伴只需要实现应用层逻辑。

展开查看详情

1.

2.云智天枢AI中台架构及AI在K8S中的实践 黄文才 腾讯云资深技术专家

3.SPEAKER 黄文才 腾讯云资深技术专家 腾讯技术专家,先后参与QQ群、群空间、WEBQQ、Q+、腾讯游 戏、NOW直播、QQ全民闯关等多个项目的架构设计和开发,在 海量服务,分布式系统等技术领域有丰富的经验。 目前担任云智天枢平台技术架构师,负责平台的架构设计。

4.CONTENTS 01 云智天枢平台架构 02 各核心窗口的架构设计 03 AI在K8S中的实践

5.云智天枢平台--全栈式人工智能服务平台 应用和解决方案开发者 泛政府产业AI应用 泛互联网AI应用 金融产业AI应用 企业AI应用 腾讯云智天枢平台(TI Matrix Platform) 腾讯云智天枢平台 支持快速接入各种数据、算法和智能设备, 算法仓库 设备中心 数据中心 AI工作室 应用中心 管理中心 并提供可视化编排工具进行服务和资源的管 理及调度,进一步通过AI服务组件持续集成 算法 算法 非结构化 行业 AI 边缘 模型 服务 数据 数据 摄像机 一体机 和标准化接口开放,帮助开发者快速构建AI 算法和模型开发者 边缘数据开发者 智能设备提供商 原子服务产品 应用 大数据平台 数据仓库 AI图像 AI基础服务 AI引擎服务 IAAS+PAAS

6.云智天枢平台—人脸结构化场景 智慧产业应用 1、发起请求 a. 订阅数据 管理中心 应用 API网关 消息网关 中心 2、启动任务 b.订阅数据 云 AI任务 任务管理 人脸结构化任务 智 天 AI工 3、调用引擎, AI模板 人脸结构化引擎DAG 7、推送属性 枢 作室 实例化一个任务 平 组件管理 消息组件 台 5、提取属性 6、存储属性 4、获取图片 算法 设备 数据 人脸属性算法 人脸抓拍机服务 数据存储组件 仓库 中心 中心 mysql 算法厂商 抓拍机 数据库

7.云智天枢平台架构 控制台 第三方开发者 日志监控 API网关 消息网关 jaeger 鉴权管理 限频服务 转发服务 鉴权管理 限频服务 转发服务 ELK 微服务 算法仓库相 设备中心相 数据中心相 关微服务 关微服务 关微服务 telegraf AI工作室相 应用中心相 管理中心相 关微服务 关微服务 关微服务 grafana 存储层 mysql kafka influxdb cos/ceph es 基础支撑 docker K8s(TKE) 蓝盾CICD

8.CONTENTS 01 云智天枢平台架构 02 各核心窗口的架构设计 03 AI在K8S中的实践

9.AI工作室的架构设计

10.AI工作室的架构设计—流程服务编排引擎 目标:流程编排能力 + 服务编排能力 流程编排能力:并发分支、条件分支,合并等操作; 服务编排能力:流程引擎支持直接调用服务,用户不必关注网络层调用,只需关注纯业 务逻辑。

11.AI工作室的架构设计—函数服务 用户逻辑如何与流程引擎结合? 函数服务:一个方法,用于转化服务输入输出 Master是函数服务系统核心部分, 承担管理职责: ➢ Worker的保活与状态管理; 调 ➢ 支持函数服务与容器亲缘性部署; 度 函数 路 服务 执 由 系统 行 Router服务是负责被调服务的 Worker是用户函数执行体: 路由: ➢ 无状态,方便扩展; ➢ 支持多种调度策略; ➢ Sanic异步io框架高效率; ➢ 调度异常管理; ➢ 即插即用,灵活更新;

12.算法仓库的架构设计 统一镜像制作方式 算法服务发布托管,直接调用k8s源生api-server

13.算法仓库的架构设计 难点问题 ➢ 如何缩短镜像制作的耗时 比如gcc编译甚至需要1小时+,cuda需要10多分钟 boost库安装也是30min ➢ 镜像大,如何降低镜像大小 解决方案 1、gcc,cuda与操作系统版本搭配做成基础镜像 2、常用组件如boost等预先编译并做成镜像模板 3、分析镜像制作任务中,组件使用频率,耗时,提前 做好模板镜像,采用空间换时间的策略 4、优化基础镜像(如使用alpine),dockerfile优化, 导出镜像做压缩 5、分离构建镜像和运行镜像

14.设备中心的架构设计 设备适配服务 上层服务逻辑 适配逻辑SDK 私有化SDK 设备适配服务 上层服务逻辑 适配逻辑

15.数据中心的架构设计

16.监控系统的架构设计

17.CONTENTS 01 云智天枢平台架构 02 各核心窗口的架构设计 03 AI在K8S中的实践

18.AI在K8S中的实践—CUDA容器化 容器内使用GPU 1、GPU设备挂载到容器里 --device挂载设备到容器 特权模式privileged 2、CUDA Driver API挂载到容器 3、CUDA Runtime API和CUDA Libraries 通常跟应用程序一起打包到镜像里 4、K8S通过nvidia-container-runtime实现挂载 gpu设备和cuda驱动进容器 5、K8S通过nvidia-device-plugin实现分卡 License问题 字符设备(/dev/mem)挂载: k8s-hostdev- plugin

19.AI在K8S中的实践—GPU虚拟化 MPS服务时间分片 没有权重

20. AI在K8S中的实践—GPU虚拟化 实现GPU半虚拟化驱动 基于驱动函数来实现 对业务和环境没有侵入性 如何决定改写哪些驱动函数,转发哪些函数(兼容性、性能)? 只改动显存申请/释放和线程的发起函数

21.AI在K8S中的实践—访问外部域名 容器内访问非容器组件zookeeper、kafka、mysql,cos存储集群等方案 1、通过ip访问,ip变更,需要修改配置 pods 2、mysql发生主备切换,需要变更地址 通过DNS注册consul与dns转发配置 query mysql dnsmasq query 注册 dns转发 zookeeper Kube-dns consul (配置转发) watch kafka apiserver

22. AI在K8S中的实践—调用链 实现原理: jaeger基于google在 Dapper这篇论文 中提出OpenTracing实现。 改造成本: 1、微服务各种框架层面做 OpenTracing打通 2、jaeger-agent sidecar模式与业务容 器部署同一个pod, Jaeger-query和jaeger-collector容器 化部署

23.AI在K8S中的实践—调用链 下一代调用链 基于istio OpenTracing标准 业务无侵入

24.AI在K8S中容器化挑战 ➢GPU资源自动扩缩容 ➢组件容器化(如 ➢基于qps自动伸缩 mysql、kafka、es 等),存储,性能 弹性伸缩 存储容器化 ➢有状态路由 负载均衡 容器安全 ➢共享内核 ➢自定义负载均衡 ➢镜像安全 ➢函数服务安全

25. THANKS 关注云加社区公众号 关注腾讯云AI公众号 腾讯云AI小程序二维码