企业级互联网架构的转型

阿里巴巴中间件高级架构师。致力于阿里巴巴企业中台以及企业级互联网架构的对外输出工作。多次作为总架构师协助大型传统企业构建业务中台,为企业实现数字化转型提供了科学的发展方向和强有力的技术支持。
展开查看详情

1. AI CU ww G人 w. 工 ai 智 cu 能 g. 技 cn 术 社 区 山猎 企业级互联网架构转型 阿里巴巴中间件高级架构师

2.数字时代复杂多变的市场 移动互联网 区 社 cn 术 品牌忠诚度 去中介化 g. 技 降低 cu 能 ai 智 数字化 w. 工 挑剔的消费 品牌老化 ww G人 者 原住民 CU AI 商业壁垒 同质竞争 水平线下移 复杂指数增 长 1

3.当今企业需要更有“韧性”的系统架构 区 社 cn 术 g. 技 cu 能 ai 智 w. 工 ww G人 CU AI 马奇诺防线示意图 传统软件典型架构 2

4.业务多元化高效协同与IT低效支撑能力的矛盾 业务诉求:高效率 (高效协同、快速响应) + 高质量(数据经营) + 多创新 (全渠道) 区 社 cn 术 IT挑战:信息系统需要灵活高效支撑多元化业务 g. 技 cu 能 应用层面:支持业务变革缓慢 数据层面:无法实时在线、归整统一 功能层面:无法满足多业态全渠道要求 ai 智 w. 工 ww G人 CU AI Ø 需求响应速度慢 Ø 数据割裂,无法拉通 Ø 无法从全局视角进行资源的调控 Ø 系统推倒重建的现象严重 Ø 数据格式千奇百怪 Ø 业务支持单一,无法支持多主体, Ø 应用操作繁琐,体验非常差 Ø 财务监控出报表困难,耗时长; 跨级业务结算; Ø …… Ø …… Ø …… 3

5.头部互联网公司的复杂业态 商务板块 区 社 (1999中国供应商→2003淘宝→2008天猫→2015盒马) cn 术 g. 技 cu 能 ai 智 物流板块 w. 工 ww G人 (2009物流宝→2011年菜鸟) CU AI 金融板块 (2004支付宝→20013蚂蚁金服) 技术板块 4 (2009阿里云→2018数字化转型专家)

6.阿里架构演进之路:分布式技术拓展业务的边界 阿里业务发展 2003年 2004年 2009年 2010年 2017年 淘宝成立 支付宝成立 第一次“双十 聚划算 “双十一”单日1682亿 区 一”,阿里云成立 峰值订单32.5万/秒 社 阿里技术演进 单一应用 分布式阶段 业务中台阶段 cn 术 2003年 2008年 2013年 2015年 g. 技 引入IOE架构 IOE技术瓶颈限制,业务难以支撑 全面完成“去IOE”“大中台,小前台” cu 能 启动“去IOE”,大规模使用分布式技术 最后一台小机下线 中台战略 ai 智 w. 工 ww G人 阿里核心分布式技术 CU AI 应用分布式:应用服务化,厚平台薄应用 数据分布式:线性扩展,突破数据库瓶颈 异地多活:突破机房规模的限制 5

7.Aliware 十年技术沉淀,一路走来,汇聚每一项技术成果和经验教训 历经阿里 10 年技术沉淀打造的 Aliware 产品 区 分布式系统资源调度 社 存储优化,计算优化 cn 术 g. 技 (降成本) cu 能 分布式系统高可用 ai 智 分布式系统数据化诊断 (系统保护,机房故障) w. 工 (全链路跟踪) ww G人 分布式系统数据化运营 CU 能 (服务/数据接口的监控与依赖分析) AI 力 覆 盖 领 分布式系统基础框架 域 (Dubbo, MQ, DRDS) 演进时间线 6

8.Aliware 系列产品阵容 解决方案 区 互联网架构 全链路压测 应用与数据库 应用高可用 社 解决方案 解决方案 迁移解决方案 解决方案 cn 术 g. 技 技术产品 cu 能 ai 智 w. 工 ww G人 Web+ EDAS SAE MSE web应用 企业级分布式 CU 轻量级分布式 微服务引擎 托管服务 应用服务 应用服务 AI MQ ARMS GTS CSB ACM SchedulerX PTS AHAS 消息队列 应用监控 全局事务服务 云服务总线 应用配置管理 分布式 性能测试 应用高可用 任务调度服务 7

9.Aliware 企业级互联网架构总览 基于 Aliware 构建企业级互联网架构 Aliware 互联网 PaaS 产品+中台 思想快速在各行业复制,帮助各行业客户进行业务创新 区 社 业务创新快 数据标准化 数据实时化 服务线性扩展 业务能力沉淀 业务能力开放 cn 术 g. 技 PC 移动 APP 物联网设备 第三方接入 cu 能 业务 ai 智 应用 上层业务应用 … Aliware w. 工 CSB 云服务总线 ww G人 业务 共享业务服务 CU PaaS 用户 商品 库存 营销 交易 支付 物流 评价 能力 … 中心 中心 中心 中心 中心 中心 中心 中心 技术 PaaS Web+ Web应用托管服务 SAE 轻量级分布式应用服务 AI Aliware 企业级互联网架构平台 RocketMQ 消息队列 Kafka 消息队列 ARMS 应用实时监控 ACM 应用配置管理 产品 EDAS 企业级分布式应用服务 RabbitMQ 消息队列 PTS 性能测试服务 GTS 全局事务服务 MQTT/MNS 消息队列 AHAS 应用高可用服务 ... IaaS 基础设施 – ECS / SLB / VPC / RDS / KV Store / OSS / ACS / SLS / … 阿里云公共云、混合云、专有云 8

10.企业级分布式应用服务 EDAS (Enterprise Distributed Application Service) 企业级分布式应用服务 EDAS 区 社 以应用为中心的 PaaS 产品,提供完整的应用管控、微服务治理、系统高可用的解决方案 cn 术 g. 技 数据化运营 系统高可用 应用诊断 cu 能 应用拓扑 环境隔离 数据库诊断 服务地图 微服务 ai 智 链路跟踪 故障演练 RPC 诊断 服务鉴权 w. 工 应用监控 限流降级 Java 运行时诊断 服务治理 ww G人 基础监控 容量规划 容器诊断 开源框架支持 CU AI 应用 PaaS 基础 优雅上下线 分批发布 日志管理 容器服务 权限服务 发布可视化 Beta 发布 报警通知 资源管理 应用管理 账号管理 应用发布 灰度发布 弹性伸缩 Docker / Kubernetes 容器与调度 9

11.企业级分布式应用服务 EDAS (Enterprise Distributed Application Service) 应用运行 – 完整微服务支撑,无缝兼容流行开源技术 支持 Spring Cloud 和 Dubbo 等多种轻量级微服务架构,无需改变开发模式,可以零代码修改迁移到 EDAS 平台 区 社 cn 术 EDAS g. 技 HSF 应用 cu 能 ai 智 w. 工 EDAS 微服务框架、配套服务治理机制、通用基础技术服务组件 可观测性支撑 ww G人 注册发现 流量控制 负载均衡 限流降级 安全控制 ... 健康检查 CU 应用 实时配置 任务调度 事务处理 ... 实时监控 AI 链路追踪 ARMS 日志处理 / EDAS 分布式资源管理与自动化构建、部署运行管控 EagleEye 系统监控 资源管理 应用管理 自动构建 自动部署 弹性伸缩 容器服务 10

12.企业级分布式应用服务 EDAS (Enterprise Distributed Application Service) 应用管理 – 丰富完善的管理机制 完整的从创建、配置、部署、启动、扩缩、下线、回滚、停止,到删除的应用全生命周期管理 区 提供分批次的发布机制,支持基于虚机或容器部署,支持应用分组、命名空间、蓝绿灰度、弹性伸缩等的多种应用部署机制 社 cn 术 g. 技 创建 应用 cu 能 删除 配置 多种应用部署机制 ai 智 应用 应用 w. 工 Docker ww G人 WAR JAR 停止 部署 Image 应用 分布式应用 应用 可视化应用发布 CU 生命周期管理 AI 支持批次发布 弹性伸缩 灰度发布 ECS Docker 允许人工介入 K8S 命名空间 集群 Swarm 蓝绿发布 实时发布日志 回滚 启动 应用 应用 ECS VPC SLB 实例 应用 下线 扩容 11

13.企业级分布式应用服务 EDAS (Enterprise Distributed Application Service) 应用监控 – 多样的监控分析手段 提供单机、集群资源的各种系统和服务指标的监控和报警,提供服务链路分析,实时服务调用拓扑大盘,服务统计报表 区 社 分布式服务调用链路追踪 基础监控 租户级服务统计报告 cn 术 CPU、内存、负载、网络、磁盘 应用、服务、近24小时 实时~一周 单机、集群 累计调用量、出错次数、平均延时 g. 技 开放平台 cu 能 无线端 PC端 消息 服务监控 服务调用实时拓扑大屏 ai 智 服务器 订单创建 发消息 QPS、服务耗时、客户端耗时、错误率.. 应用和服务间的调用依赖关系 w. 工 应用链路上的实时流量 收消息 ww G人 服务调用 服务调用 链路负责人 CU 订单检查 用户校验 快递优惠 商品优惠 AI 服务调用 服务调用 服务调用 服务调用 服务调用 库存检查 用户信息 优惠信息 服务提供者 JDBC 分布式 数据库 分布式缓存 文件系统 12

14.企业级分布式应用服务 EDAS (Enterprise Distributed Application Service) 应用诊断 – 问题排查诊断,应用健康体检 提供内存堆栈分析、单机方法执行时序追踪、日志统计关联等问题排查诊断手段,提供全方位的应用一键健康体检 区 社 内存堆栈大小分布解析 日志统计 应用体检 cn 术 g. 技 • 控制台实时展示应用内存分布情况, • 日志统计 持续对应用日志进行统计 • 一键体检 一键点击对当前应用进行 并按照占用大小排序,帮助用户找到 分析、模式匹配分析,将同类日志进 体检,并以分数的方式将体检结果反 cu 能 实时占用内存较大的类 行合并统计次数和比例,通过不同日 馈出来 ai 智 期的对比,便于用户发现应用运行时 w. 工 日志的变化情况,同类日志的次数统 • 体检项目 包括应用状态检查、应用 单机方法执行追踪 计等 基础监控、服务监控检查、应用是否 ww G人 • 方法追踪是对当前分布式调用链路追 高可用部署检查等 • 日志关联 点击详情,就可以在日志 CU 踪的补充,解决在使用调用链路追踪 功能定位到单机某一个服务的问题后, 文件中找到日志原文,以及该段日志 • 围绕应用多元化功能的入口 在围绕 AI 进一步诊断该服务方法本地执行时序 前后关联的日志内容 应用体检,将EDAS对应用的所有监 细节、各执行环节的耗时、入参/返 控和诊断结果进行数据汇总,新特性 回值和异常情况 • 动态调整 在控制台上,可以动态调 引导使用 整日志的打印级别,无需应用重启。 13

15.企业级分布式应用服务 EDAS (Enterprise Distributed Application Service) 典型服务治理特性 – 限流降级 峰值压力下保障核心业务正常运行 区 社 cn 术 g. 技 cu 能 ai 智 w. 工 ww G人 CU AI 限流:针对非核心服务调用者 降级:针对系统需要调用的非核心服务 14

16.企业级分布式应用服务 EDAS (Enterprise Distributed Application Service) 混合云,跨云支持能力 支持混合云和跨云的应用部署和管理能力,实现同一套PaaS平台管理多个环境的云上应用 区 社 混合云 cn 术 g. 技 • 公共云管理专有云 在客户专有云和 阿里云公共云之间,拉通专线,公共 EDAS cu 能 云EDAS可以对专有云应用机器进行 企业级分布式 ai 智 管理 应用服务 w. 工 • 维护机器生命周期 弹性伸缩过程涉 ww G人 及的机器购买和释放均由EDAS负责, 关联用户账号支付,无需提前购置机 统一的资源抽象层以及调度层 CU 器 AI 跨云 • 对 AWS、Azure 机器做部署和管理 客户IDC EDAS产品能够将应用部署到除阿里 云之外的云厂商机器上 15

17.企业级分布式应用服务 EDAS (Enterprise Distributed Application Service) 通用基础技术服务组件 EDAS 平台化紧密集成,微服务架构分布式应用必备 区 内置服务组件 产品深度集成 产品深度集成 社 cn 术 g. 技 cu 能 SchedulerX ACM GTS ai 智 分布式 应用配置管理 全局事务服务 w. 工 任务调度服务 ww G人 分布式任务调度 实时配置推送 分布式事务处理 CU AI 允许用户配置任意周期性调度的单机或者分布 提供高效的分布式配置管理,能够将分布式系 阿里巴巴自主研发分布式事务组件GTS,突破 式任务,秒级触发,高可用容灾,历史调度查 统的配置信息在EDAS控制台上集中管理起来 性解决分布式事务处理的难题,每次分布式服 询。适用于诸如每天凌晨2点定时迁移历史数据 做到一处配置,处处使用,秒级推送 务调用、消息收发和数据库访问都有事务保障 等任务调度场景 目前在阿里内部,任务个数多达数十万个 目前在阿里内部,日均推送数亿次 简单易用、性能强劲、业务无侵入 16

18.企业级分布式应用服务 EDAS (Enterprise Distributed Application Service) EDAS 分布式任务调度服务 每日精准触发调度万亿次 区 允许用户配置任意周期性调度的单机或者分布式任务 社 cn 术 多级任务拆分子任务 g. 技 云化应用 并发、均衡调度 cu 能 ai 智 移动应用 单级无限任务分片 w. 工 多级上亿任务分片 ww G人 物联网应用 分布式弹性变化应用集群 CU 精准、高可靠任务触发 任务管理监控 AI SchedulerX 任务执行调度 多种语言支持 灵活触发方式 丰富任务类型 可靠任务容灾 Java、node.js 定时执行 定时任务 任务多备份 Linux 命令、 Shell 脚本 SDK API 触发 并行计算 任务自动迁移 HTTP API 任务依赖关系触发 任务依赖 17

19.企业级分布式应用服务 EDAS (Enterprise Distributed Application Service) 应用配置管理 ACM 提供分布式应用的配置管理、订阅和动态推送能力,提供配置全局检查、推送轨迹查询、历史版本回滚能力 区 源自阿里巴巴中间件配置中心管理工具 Diamond,十年专注分布式配置管理,服务集团50+BU、8000+应用 社 cn 术 传统应用配置修改方式 基于 ACM 的配置修改方式 g. 技 典型场景 cu 能 ACM 控制台 • 应用配置推送 ai 智 配置1 • 全局容灾切换 w. 工 应用1 • 全局预案开关 配置1 配置2 ww G人 • 动态更新机器学习模型 ACM 服务集群 CU 配置2 优势 AI 应用2 • 安全、集中式管控 • 订阅模式,配置秒级生效 • 配置版本化,一键回滚,灰度推 ACM Client ACM Client 送,降低故障风险 应用1 应用2 • 丰富的 Client API 18

20.企业级分布式应用服务 EDAS (Enterprise Distributed Application Service) 全局事务服务 GTS 微服务架构分布式事务解决方案,远超同类产品的高性能与易用性 区 微服务分布式环境下调用关系复杂、访问多个或多种的数据源,全局事务服务提供高性能简便易用的事务一致性解决方案 社 cn 术 g. 技 DRDS cu 能 MQ RPC 调用,事务传播 ai 智 Oracle w. 工 ww G人 MySQL RPC 调用,事务传播 CU PostgreSQL PetaData AI MySQL 应用 (HSF) 应用 (Spring Boot) RDS GTS 分布式事务作用域 应用 (Dubbo) • 性能 开启事务性能仅略有下降,业界主流产品则下降近一个数量级 • 易用 对业务无侵入,使用时只需在事务入口简单加个注解 • 可靠 众多客户场景,每天亿级事务量长期考验,妥善处理应用宕机节点故障等各种异常情况 19

21.消息队列 MQ (Message Queue) 产品系列 消息产品系列:消息队列 RocketMQ、消息服务 MNS、消息队列 Kafka、消息队列AMQP、微消息队列 LMQ 区 社 cn 术 g. 技 cu 能 统一内核基于 Apache RocketMQ,通用组件共享 ai 智 任意消息产品之间,消息可以互通 w. 工 ww G人 • 消息队列 RocketMQ Topic 模型、Pub/Sub、低延迟、高吞吐 CU • 消息服务 MNS Queue 模型、P2P、跨域访问、移动推送(短信/Email/Http Endpoint) AI • 消息队列 Kafka 融合 Kafka 开源生态,安全性与可靠性全面升级 • 消息队列AMQP: 基于 AMQP 标准协议研发,完全兼容 RabbitMQ 开源生态以及多语言客户端,打 造分布式、高吞吐、低延迟、高可扩展的云消息服务 • 微消息队列 LMQ 端(浏览器、Android、iOS、汽车、智能设备、直播)与云的消息双向传输通信 20

22.消息队列 MQ (Message Queue) 消息队列 MQ 低延迟、高并发、高可用、高可靠,可支撑万亿级数据洪峰的分布式消息中间件 区 阿里巴巴交易核心链路反复打磨,历年双十一严苛考验 社 cn 术 普通消息、顺序消息、定时消息、事务消息 指定时间段消息回溯 g. 技 【多协议】TCP / HTTP / MQTT / WebSocket 消息全链路轨迹 cu 能 【云产品集成】EMR、FC、IoT、Blink、ARMS 支持企业级主子账号、Topic 资源权限控 ai 智 生态 管理 w. 工 丰富 多维 ww G人 CU 性能 服务 AI 优越 健壮 百亿级堆积能力 99.99999999% 数据可靠性 毫秒级投递延迟 99.99% 服务可用性 支持万级节点高并发 阿里双十一的真实场景考验 高性能集群真正水平扩展 熔断机制、消息重投机制 21

23.消息队列 MQ (Message Queue) 消息队列 Kafka 全面融合 Kafka 生态 区 开箱即用、无缝迁移 全面解决开源 Kafka 痛点,安全、可靠、免运维 社 cn 术 g. 技 cu 能 全托管服务 数据安全 ai 智 专注于业务开发,无需部署运维 支持 SSL 加密数据传输 w. 工 确保数据传输过程中不被窃取或篡改 ww G人 更低成本、更弹性、更可靠 CU 无缝迁移AI 更专业 100% 兼容 Apache Kafka 协议 优化开源 Kafka 痛点 Kafka 客户端、插件与消息队列 Kafka 通讯 优化消息堆积处理、支持万级 Topic 能力 22

24.消息队列 MQ (Message Queue) 微消息队列 LMQ (MQ for IoT) 端(浏览器、Android、iOS、智能设备、互动直播、车联网)与 云 的消息传输与双向通信 区 社 cn 术 g. 技 上报/下推 MQTT 大容量 监听 cu 能 千万级设备同时在线 MQTT 智能设备 ai 智 监听/消费 w. 工 多协议 上报/下推 808协议 业务应用系统 ww G人 MQTT,WebSocket , 国标808,电动汽车 GB/T 32960, 监听 消息队列 808 for IoT 定制协议 车辆 CU 消息队列 …… MQ AI 上报/下推 GB/T 多语言 32960 JAVA,.NET,C++, PHP, iOS, TCP 监听 Android, JavaScript 新能源设备 监听/消费 可扩展 上报/下推 WebSocket 大数据分析系统 可线性扩展,对用户透明 WebSocket 监听 直播互动 23

25.消息队列 MQ (Message Queue) 消息队列 MQ – 全球消息路由 解决跨地域、远距离、毫秒级消息同步难题 区 社 cn 术 性能高、实时性强 g. 技 同地区内通过内网传输,多维度消息路由级别 毫秒级实时同步,横向线性扩展,百万级 TPS cu 能 传输能力 ai 智 异地多活 (单元化) w. 工 阿里双11异地多活基础架构,为数千应用提供实 ww G人 时消息路由 CU 易用性 AI 提供可视化任务管理界面,配置简单 路由状态透明,完整的监控链路 异地灾备 提高数据安全性,构建 MQ 异地灾备 安全可靠 支持断点续传,任意节点故障、链路秒级恢复 24

26.消息队列 MQ (Message Queue) 典型应用场景 区 社 l 系统间解耦 cn 术 g. 技 l 异步通知 cu 能 l 分布式事务 ai 智 Web Custom Apps Microservices Logs Analytics Monitoring w. 工 l 异构数据复制与分发 ww G人 Alibaba Cloud Message Queue l 双十一大促的削峰填谷 Connectivity, Usability, Optimizaztion, Security CU l 大规模机器的Cache同步 AI l 日志监控 E-Commerce Finance Business Game Live IoT l IM实时通信 l 实时计算分析 25

27.消息队列 MQ (Message Queue) Apache RocketMQ 开源:从追随者到引领者 区 社 cn 术 g. 技 cu 能 金融级消息服务 高吞吐 低延迟 分布式集群、多副本数据冗余以及消息追 百万级消息并发、万亿级消息流转能力, 在高并发情况下,99.6% 的消息写入延迟在 ai 智 踪技术,打造高可用消息服务 线性横向扩展 1ms 以内 w. 工 ww G人 CU AI 海量消息堆积 始终保持高吞吐的情况下,提供海量堆 积的能力,广泛适用于削峰填谷场景 行业生态 面向金融、制造、零售、IoT、能源等各 行业领域 https://rocketmq.apache.org 26

28.分布式关系型数据库服务 DRDS (Distributed Relational Database Service) 解决数据库水平伸缩问题 提供透明读写分离配置,分库分表策略,快速扩容数据库服务能力。 区 社 cn 术 APP APP APP g. 技 APP 运营系统 APP cu 能 APP APP 买家系统 APP 卖家系统 APP ai 智 w. 工 APP DRDS APP ww G人 写/读 CU 订单库 AI Master Master Master (按订单 ID 拆分) 复制 读 Slave Slave Slave 分库 1 分库 2 分库 3 Slave 27

29.云服务总线 CSB (Cloud Service Bus) 云服务总线 CSB 云中的ESB(企业服务总线),帮助企业实现业务集成与能力跨域开放 区 协议适配变换、服务开放管控、跨域服务联动 社 cn 术 g. 技 跨环境管控运维 跨环境服务调用 cu 能 ai 智 云 w. 工 第三方应用 移动应用 物联网应用 Cloud 云上 CSB 中控 ww G人 IDC 互联网公网 CU Dubbo Internet AI SOAP WS EDAS Dubbo RESTful EDAS Dubbo VPC RESTful CSB 实例 CSB 实例 RESTful CSB 实例 私有环境 CSB 中控 VPC Dubbo 28