- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
云上新时代,IaaS新姿势
云上新时代,IaaS新姿势
ROS+OOS实现部署运维自动化
云上管理基础架构的常见痛点
如何提升云上用户的安全感和幸福感?
……
展开查看详情
1 .张鹏程 阿里云智能高级产品专家
2 .云上新时代,IaaS新姿势 ROS+OOS实现部署运维自动化 张鹏程
3 . 云上管理基础架构的常见痛点 1 架构设计时缺乏场景化最佳实践指导, 需求变化又很快,容易重复踩“坑” 4 大规模集群运维费时费力,单一场景定 期重复操作效率低下 2 云上服务组件创建、配置等操作繁琐, 而且需要跨多个产品控制台 5 业务发展过快,缺少运维积累和规 范, 希望形成标准化流程和工具 3 基础架构部署运维人员更替,架构和 配置无法追溯、还原和复制 6 运维权限定义过大,操作影响面广, 存在安全生产风险隐患
4 .如何提升云上用户的安全感和幸福感?
5 . 从安全感到幸福感 自动 无人 场景化标签化事件化 幸福感 驾驶 值守 智能编排 定速 可编排 批量自动化操作 巡航 精准 全场景原子操作 操控 可控制 清晰 监控告警+根因诊断 可感知 仪表 指标 安全感 稳定可靠 稳定性SLA+性能SLA 过硬 买车->用车 需求层次 上云->用云
6 .规划部署 ——从架构设计到资源编排
7 . 安全感基石——设计高可用系统架构 基于多地域和多可用 区设计HA架构 • 单实例维度,ECS的 服务可用性不低于 99.95%(月度不可用 时长低于22分钟) • 单地域多可用区维度, ECS的服务可用性不 低 于 99.99% ( 月 度 不可用时长低于4.4分 钟)
8 . 但仍然要面对这些挑战…… 需求灵活多变 • 应用App平均寿命不到十个月 • 系统组件和架构升级改造频繁 资源类型众多,管理入口众多 能否像管理代码一样, • 计算:云服务器,容器,专用主机 ? 用DevOps方式管理云 上基础设施呢? • 存储:云盘,对象存储,块存储 • 网络:网卡,VPC,VSwitch • 中间件:数据库,消息,配置 • ...
9 .幸福感阶梯——资源编排ROS实现基础设施即代码 编排 模板 资源栈 引擎 JSON/YAML文件 编排引擎 云资源集合 声明资源需求 根据模板创建资源栈 以资源栈为单位管理一组资源 定义模板参数 更新维护资源栈 监控与报警 资源依赖关系及配置细节 重试和异常处理 升级、扩容
10 .资源编排的优势 简化资源管理 一键创建、检查、更新、删除堆栈资源 自动化编排资源 标准、自动化部署和配合资源、简化云应用交付 灵活组合多种云产品及服务 支持30多种云产品,上百种资源的编排组合、满足 自动化运维需求
11 . 资源编排典型应用场景 VPC网络 ECS、SLB、RDS组合 ECS克隆 创建子账号 实现创建子帐号 构建完整的网络, 克隆相同配置的ECS 三层架构的经典组合, 、授权,并开启 包括专有网络、交换机 (包括实例规格、网络配 一个模板一键搞定 控制台登录,实 、自定义路由等 置、磁盘配置等) 现企业权限管理
12 .丰富的模板,最佳实践的沉淀
13 . 资源编排操作概览 ROS资源栈的代码示例(节选) 资源栈的创建、查询、删除、更新 可视化编辑器,降低难度提升效率 { “Parameter": {……}, "Resources": { "vswitch": {……}, "vpc": {……}, "sg": {……}, "ecs": { "Type": "ALIYUN::ECS::Instance", "Properties": { "IoOptimized": "optimized", "PrivateIpAddress": "192.168.0.1", "VpcId": {"Ref": "vpc"}, "SecurityGroupId": {"Ref": "sg"}, "VSwitchId": {"Ref": "vswitch"}, "ImageId": {"Ref": "ImageId"}, "InstanceType": "ecs.g5.xlarge”, "SystemDiskCategory": "cloud_ssd", "Password": {"Ref": "LoginPassword"} } } }
14 .主动运维 ——从异常感知到运维编排
15 . 安全感基石——了解云上常见异常故障和影响 单个实例性能受损:通常是由网络/存储IO抖动、或实例GuestOS负载过高等原因引起 单个实例夯机:通常是由物理机系统异常、云盘IO Hang、或实例GuestOS OOM、Hang等引 起 云监控 单个实例计划重启:在计划维护、轮转升级、或物理机硬件异常预测时系统会优先尝试热迁移, 若存在不适合热迁移的情况则会发起计划重启 API 单个实例非预期重启:通常是由物理机硬件异常、或实例GuestOS Crash引起 系统 事件 多台实例同时发生故障:概率极低,通常是由核心设备同时发生严重故障或发生可用区级灾难引起
16 . 但仍然要面对这些挑战…… 效率难以满足敏捷需要 • 大规模实例,批量巡检和运维费 时费力 • 人工运维的效率跟不上业务持续 能否像管理代码一样, 交付的需求 用DevOps方式管理 ? 云上运维呢? 日常管理和安全生产难度加大 • 缺少运维积累和规范,难以形成 标准化流程和工具 • 运维权限定义过大,操作影响面 广,存在安全生产风险隐患
17 . 幸福感阶梯——运维编排OOS实现运维即代码 编排 执行 模板 引擎 结果 JSON/YAML文件 创建执行 跨云产品使用 用代码定义运维手册 全托管的自动化批量执行 可视化执行过程和结果
18 . 可视化的执行 过程和结果 跨地域跨可用 免费的全托管 区运维能力 自动化 快速模板构建 高效的批量管 能力 理 完备的鉴权和 审计
19 .批量操作和巡检 更新镜像 批量地执行运维命令,针对多个目标(如ECS 为了保证ECS实例的运行环境始终是安全的, 实例)进行操作和巡检,以确保业务的正常和 包括安装最新补丁,或者更新所依赖的组件 平滑运行,并保持业务的健康状态。 等,可以从一个源镜像开始逐步更新,最终生 成一 个新镜像,然后用于测试和生产。 典型应 用场景 定时任务 需要审批或事件驱动的复杂运维场景 定时执行所定义的运维动作。例如,在某测试 在很多场景下都需要使用审批来确保操作是安 场景中,需要清除某账号下因为测试所产生的 全并符合预期的,或需要事件触发运维操作。 对象存储OSS文件,则可以创建一个模板,每 通过在模板中增加审批动作或事件触发动作, 天凌晨运行,以确保测试环境是一个全新的环 以确保运维动作执行的必要性和实时性。 境。
20 .丰富的模板,最佳实践的沉淀
21 . 运维编排操作概览 OOS模板的代码示例(节选) 模板的创建、查询、删除、更新 可视化执行过程和结果 -Name: runInstance Properties: ImageId: "{{ SourceImageId }}" InstanceType: "{{ InstanceType }}” -Name: runCommand Properties: CommandContent: "{{ CommandContent }}” InstanceId: "{{ runInstances.InstanceId }}” -Name: createImage -Name: deleteInstance
22 .编排服务助力云上DevOps闭环管理
23 . 扫码加入社群 与志同道合的码友一起 粘贴二维码 Code Up 阿里云开发者社区 运维编排OOS支持群
24 .谢谢!