云上新时代,IaaS新姿势

云上新时代,IaaS新姿势
ROS+OOS实现部署运维自动化
云上管理基础架构的常见痛点
如何提升云上用户的安全感和幸福感?
……

展开查看详情

1.张鹏程 阿里云智能高级产品专家

2.云上新时代,IaaS新姿势 ROS+OOS实现部署运维自动化 张鹏程

3. 云上管理基础架构的常见痛点 1 架构设计时缺乏场景化最佳实践指导, 需求变化又很快,容易重复踩“坑” 4 大规模集群运维费时费力,单一场景定 期重复操作效率低下 2 云上服务组件创建、配置等操作繁琐, 而且需要跨多个产品控制台 5 业务发展过快,缺少运维积累和规 范, 希望形成标准化流程和工具 3 基础架构部署运维人员更替,架构和 配置无法追溯、还原和复制 6 运维权限定义过大,操作影响面广, 存在安全生产风险隐患

4.如何提升云上用户的安全感和幸福感?

5. 从安全感到幸福感 自动 无人 场景化标签化事件化 幸福感 驾驶 值守 智能编排 定速 可编排 批量自动化操作 巡航 精准 全场景原子操作 操控 可控制 清晰 监控告警+根因诊断 可感知 仪表 指标 安全感 稳定可靠 稳定性SLA+性能SLA 过硬 买车->用车 需求层次 上云->用云

6.规划部署 ——从架构设计到资源编排

7. 安全感基石——设计高可用系统架构 基于多地域和多可用 区设计HA架构 • 单实例维度,ECS的 服务可用性不低于 99.95%(月度不可用 时长低于22分钟) • 单地域多可用区维度, ECS的服务可用性不 低 于 99.99% ( 月 度 不可用时长低于4.4分 钟)

8. 但仍然要面对这些挑战…… 需求灵活多变 • 应用App平均寿命不到十个月 • 系统组件和架构升级改造频繁 资源类型众多,管理入口众多 能否像管理代码一样, • 计算:云服务器,容器,专用主机 ? 用DevOps方式管理云 上基础设施呢? • 存储:云盘,对象存储,块存储 • 网络:网卡,VPC,VSwitch • 中间件:数据库,消息,配置 • ...

9.幸福感阶梯——资源编排ROS实现基础设施即代码 编排 模板 资源栈 引擎 JSON/YAML文件 编排引擎 云资源集合 声明资源需求 根据模板创建资源栈 以资源栈为单位管理一组资源 定义模板参数 更新维护资源栈 监控与报警 资源依赖关系及配置细节 重试和异常处理 升级、扩容

10.资源编排的优势 简化资源管理 一键创建、检查、更新、删除堆栈资源 自动化编排资源 标准、自动化部署和配合资源、简化云应用交付 灵活组合多种云产品及服务 支持30多种云产品,上百种资源的编排组合、满足 自动化运维需求

11. 资源编排典型应用场景 VPC网络 ECS、SLB、RDS组合 ECS克隆 创建子账号 实现创建子帐号 构建完整的网络, 克隆相同配置的ECS 三层架构的经典组合, 、授权,并开启 包括专有网络、交换机 (包括实例规格、网络配 一个模板一键搞定 控制台登录,实 、自定义路由等 置、磁盘配置等) 现企业权限管理

12.丰富的模板,最佳实践的沉淀

13. 资源编排操作概览 ROS资源栈的代码示例(节选) 资源栈的创建、查询、删除、更新 可视化编辑器,降低难度提升效率 { “Parameter": {……}, "Resources": { "vswitch": {……}, "vpc": {……}, "sg": {……}, "ecs": { "Type": "ALIYUN::ECS::Instance", "Properties": { "IoOptimized": "optimized", "PrivateIpAddress": "192.168.0.1", "VpcId": {"Ref": "vpc"}, "SecurityGroupId": {"Ref": "sg"}, "VSwitchId": {"Ref": "vswitch"}, "ImageId": {"Ref": "ImageId"}, "InstanceType": "ecs.g5.xlarge”, "SystemDiskCategory": "cloud_ssd", "Password": {"Ref": "LoginPassword"} } } }

14.主动运维 ——从异常感知到运维编排

15. 安全感基石——了解云上常见异常故障和影响 单个实例性能受损:通常是由网络/存储IO抖动、或实例GuestOS负载过高等原因引起 单个实例夯机:通常是由物理机系统异常、云盘IO Hang、或实例GuestOS OOM、Hang等引 起 云监控 单个实例计划重启:在计划维护、轮转升级、或物理机硬件异常预测时系统会优先尝试热迁移, 若存在不适合热迁移的情况则会发起计划重启 API 单个实例非预期重启:通常是由物理机硬件异常、或实例GuestOS Crash引起 系统 事件 多台实例同时发生故障:概率极低,通常是由核心设备同时发生严重故障或发生可用区级灾难引起

16. 但仍然要面对这些挑战…… 效率难以满足敏捷需要 • 大规模实例,批量巡检和运维费 时费力 • 人工运维的效率跟不上业务持续 能否像管理代码一样, 交付的需求 用DevOps方式管理 ? 云上运维呢? 日常管理和安全生产难度加大 • 缺少运维积累和规范,难以形成 标准化流程和工具 • 运维权限定义过大,操作影响面 广,存在安全生产风险隐患

17. 幸福感阶梯——运维编排OOS实现运维即代码 编排 执行 模板 引擎 结果 JSON/YAML文件 创建执行 跨云产品使用 用代码定义运维手册 全托管的自动化批量执行 可视化执行过程和结果

18. 可视化的执行 过程和结果 跨地域跨可用 免费的全托管 区运维能力 自动化 快速模板构建 高效的批量管 能力 理 完备的鉴权和 审计

19.批量操作和巡检 更新镜像 批量地执行运维命令,针对多个目标(如ECS 为了保证ECS实例的运行环境始终是安全的, 实例)进行操作和巡检,以确保业务的正常和 包括安装最新补丁,或者更新所依赖的组件 平滑运行,并保持业务的健康状态。 等,可以从一个源镜像开始逐步更新,最终生 成一 个新镜像,然后用于测试和生产。 典型应 用场景 定时任务 需要审批或事件驱动的复杂运维场景 定时执行所定义的运维动作。例如,在某测试 在很多场景下都需要使用审批来确保操作是安 场景中,需要清除某账号下因为测试所产生的 全并符合预期的,或需要事件触发运维操作。 对象存储OSS文件,则可以创建一个模板,每 通过在模板中增加审批动作或事件触发动作, 天凌晨运行,以确保测试环境是一个全新的环 以确保运维动作执行的必要性和实时性。 境。

20.丰富的模板,最佳实践的沉淀

21. 运维编排操作概览 OOS模板的代码示例(节选) 模板的创建、查询、删除、更新 可视化执行过程和结果 -Name: runInstance Properties: ImageId: "{{ SourceImageId }}" InstanceType: "{{ InstanceType }}” -Name: runCommand Properties: CommandContent: "{{ CommandContent }}” InstanceId: "{{ runInstances.InstanceId }}” -Name: createImage -Name: deleteInstance

22.编排服务助力云上DevOps闭环管理

23. 扫码加入社群 与志同道合的码友一起 粘贴二维码 Code Up 阿里云开发者社区 运维编排OOS支持群

24.谢谢!