美团点评微服务OCTO-曹继光

大纲:

  • 服务治理系统octo演进及架构设计
  • 美团点评服务治理实践
  • octo在service mesh 及开源方向进展
展开查看详情

1.美团点评微服务框架及治理系统:1?: 演进g路 曹继光 美团点评 资深技术a家

2.็ᖀ‫ط‬ चᏐᎸ‫ݎ‬ଘ‫ݣ‬ᩒႮದ๞ӫਹ W &0%(年加入美团,先后负责 服务框架及治理v系、性能 q化、S3?化等方向 W 经历h美团服务治理v系l0 到%,再到发展完善的各c阶 段

3.W 服务治理系统:1?:演进及架构设计 W 美团点评服务治理实践 W :1?:在SEPTIDE MEQh 和开源方向进展

4.美团点评服务治理系统:1?:概况 ‫ݪل‬ᕆचᏐᦡෞ҅! ᥟፍ๐‫ۓ‬හ ӡՊᕆ᧣አ/ॠ! ᰁහӡӻ҅ ! ᜓᅩහ‫܈‬ӡ! ඪඅ‫ک‬ਹ(क़ ‫ܕ‬ᯈᭆ)҅‫ک‬ 在公司b务 ମ(ࢫᨻ̵ᯌ 侧获得较好 ମ)̵ඪ՞ᒵ 的口碑和影 ಅํӱ‫!ۓ‬ 响力

5.早期遇到的问题 • ଫአᬰᑕፗᬳ҅୩ᘠ‫ݳ‬ҔဳٙӾ ஞ౮ԅኒ᷀҅ӱ‫ۓ‬๐‫ۓ‬ीᳩᬥሕ҅ ޸‫ݷ‬๐‫!ۓ‬ ᵙզಘ઀! • ZKԁ෸ᜓᅩ҅ᷚᴾṛ! • ௛ᕮғᔮᕹᛔ᫝ᚆ‫ێ‬இᑱᏈ! • ग़໛ຝଚਂ҅ӧ԰᭗! • ໛ຝ๋ṛTPSӧ‫ک‬Ӟӡ҅෫ဩ ๐‫ۓ‬໛ຝ! ჿ᪃ṛଚ‫ݎ‬๐‫ۓ‬ᵱ࿢! • ௛ᕮғຽ‫ٵ‬۸࿜ଘ֗҅௔ᚆ୧! • ๐‫ۓ‬လቘ‫ۑ‬ᚆᗌ०҅ӱ‫ۓ‬๐‫ۓ‬ ๐‫ۓ‬လቘ! ᬩ០౮๜ṛ! • ௛ᕮғ๐‫ۓ‬လቘᔮᕹஉᵙአ!

6.问题拆解 突破路径 • ݄Ӿஞғ୚‫૲ړف‬ୗդቘ҅ಥ೅चᏐလ 1! ቘ‫ۑ‬ᚆ҅୧۸੒Ӿஞ୩ׁᩢ! 2! • ൷୒ԁ෸ᜓᅩ҅୚‫ف‬ᇿᒈ๐‫ۓ‬ᇫாፊഴᔮᕹ! 3! • ຽ‫ٵ‬۸๐‫ۓ‬໛ຝ҅൉‫܋‬ฃአ௔̵௔ᚆ! • ෆ֛‫ړ‬ೆғᔮᕹ 4! ᚆ‫ێ‬ೆ‫کړ‬ग़ཛྷ ࣘ҅‫ݱ‬ཛྷࣘᇿᒈ ᬽդ!

7.:1?:系统架构 :1?:-NS W :1?:-NS:命名服务 W S4/GEnR:服务治理m理 W :1?:-=P1:轻量级服务框架 W SDBnnEP:服务状态监控系统 W :1?:-PMPRBJ:一站式治理平台 W ABRR V :1?:服务调用统计

8.核心设计解析(%):S4/GEnR V 服务治理m理

9.核心设计解析(%):S4/GEnR V 逻辑架构

10.核心设计解析(&):SDBnnEP - 服务状态监控系统 定t:中心化节点健康监测;负责监控/更新节点状态 q势:相对于点对点心跳,基本不r增加b务应用负载,确保节点状态全局唯一性

11.核心设计解析(&):SDBnnEP V 特点解析 ਻ᅒᚆ‫ێ‬ғ֢ ԅ๢಄ඳᵑᥴ ṛ‫ݢ‬ᶌғᆤෙ ๢‫҅ګ‬ᴠྊᛔ ٬ොໜ҅ 1min൹ᴻඳ ṛ‫ٵ‬Ꮯ௔ғ ᫝୑ଉଃ๶᧏ ‫!ڣ‬ ᵑ๢಄ၞᰁ! Detector & Updater‫݌‬᯿ ṛ‫ݢ‬አғ‫ݶ‬ ໊ḵҔ୊᬴റ ๢಄റၥҔ ၥᥢ᭿ᗑᕶಮ ෫‫ܔ‬ᅩඳᵑ! ۖଗಟ! ṛ௔ᚆғ चԭ Akka Actor ཛྷ ࣳҔ10ᑁ ٖ༄ၥහ ‫܈‬ӡᜓᅩ!

12. 核心设计解析(&):SDBnnEP V 核心实现解析 Provider ֜᧲‫؃‬௔୑ଉ(᎖෸ಮۖ੕ᛘጱ᧏‫)ڣ‬ғ first check second check • cpu੠‫گ‬ • ᗑᕶಮۖ • fullgc Scanner-detector Scanner-updater ই֜ਫሿғ • ୊෸队列 DelayQueue ୊෸500ms • ୊෸෸ᳵ 500ms ୊෸റၥ꧌‫ݎړ‬ഀDouble checkশ‫ێ‬

13.W 服务治理系统:1?:演进及架构设计 W 美团点评服务治理实践 W :1?:在SEPTIDE MEQh 和开源方向进展

14.服务治理演进各c阶段 星耀 Ø 跨地区容灾和扩展能力 青铜 Ø 数千万订单量级b务强需 Ø 基础能力达标 求 6 % 白银 Ø 标准化水平良好 & ) 钻石 3 Ø 服务保障能力强 Ø 胜p%千万订单量级b务 ( 黄金 铂金 Ø 性能一流 Ø 易用性q秀 Ø 足n支撑数百万订单量级b务

15.服务治理实践(%):基础能力达标 - 青铜段t 注册中心 服务运营 • 服务注册 • 配置管理 • 服务概要 • 服务分组 • 提y者 • 节点管理 • 消费者 • 服务鉴权 :1?:-PMPRBJ 监控报警 一站式服务治理平台 数据分析 • 节点监控 • 性能指标 • 性能监控 • 来源去向 • b务监控 • f机分析 • 异常监控 • 数据报表 • 调用链路

16.数据分析:多维度数据统计

17.服务治理实践(&) + 提升标准化-白银段t • ත඼ग़ӻ๐‫ۓ‬໛ຝ҅ᴠྊӱ‫׆ۓ‬᯿॔᭜᫪ৼ! • ޾ӱ‫ۓ‬ୌᒈ‫ݶو‬ຽ‫҅ٵ‬ᘶ‫(ݎ୏ݳ‬ইNode.js)! ๐‫ۓ‬໛ຝᕹ • ᗦࢫ̵ᅩᦧ‫׆‬๐‫ۓ‬໛ຝ಑᭗̵ᣟ‫!ݳ‬ Ӟ! • ԆᥝचᏐᕟկᕹӞ಑۱ԅINF-BOM҅ (ྯଙവӞེ‫ق‬ᰁᇇ๜‫܋‬ᕆ)! • ޸‫ݷ‬๐‫ۓ‬OCTO-NSԅग़໛ຝᕹӞ಑᭗൉‫׀‬ඪ೮! • ਠ࠺Ӟᒊୗ๐‫ۓ‬လቘଘ‫ݣ‬OCTO-Portal҅ԅ‫֛ق‬ӱ‫҅׆ۓ‬൉‫׀‬Ӟᛘጱֵአ ޸‫ݷ‬๐‫ۓ‬ᕹ ֛ḵ! Ӟ! • HTTP๐‫ۓ‬୩ׁᩢDNS̵Nginx҅᧣አ᪠ஆׁᩢग़҅ฃ‫ݑ‬ඳᵑ୽ߥ! • ٖᗑ๐‫ۓ‬ᕹӞත඼‫ک‬OCTO-RPC҅൉‫܋‬௔ᚆ̵ᴳ֗ඳᵑሲ! ත඼ٖᗑ • ᴳ֗ӱ‫ٖݎ୏ۓ‬ᗑ๐‫ۓ‬෸ᭌೠ౮๜! Http๐‫!ۓ‬

18.服务治理实践(3) +易用性 - 黄金段t • ବ੶လቘ‫ۑ‬ᚆӥᑏ‫ک‬SGAgent҅ۖா‫ۑ‬ᚆӤᑏ‫ک‬OCTO-Portal! ᫷ᰁᕆ๐‫ • ۓ‬ᓌ۸ᯈᗝ҅‫ٺ‬੝ᒫӣොׁᩢ! ໛ຝ! • ӿ੄ጱ᧣አ᱾᪠‫׎҅௳מ‬ԭள᭛ਧ֖ᳯ᷌ሾᜓ! • ࣁ໛ຝ‫׆‬ਫሿᕡᔉଶጱईᅩፊഴ҅ᴳ֗ᳯ᷌ഭັ౮๜! ‫ڊ‬ሿᳯ᷌অ ഭັ! • ‫ݢ‬ᥤ۸ၥᦶૡٍғԫᬰ‫ᦶ᧣ᦓܐګ‬ӧො‫֛҅׎‬ḵളᬪHTTP ၨᥦ࢏ၥᦶ! • OCTO-RPCඪ೮ၞᰁ୯‫ࢧګ‬නғܴၥ޾ࢧ୭࣋วֵ҅አ֛ḵᔄ֒URLಢᰁࢧන! ᜉঅጱአಁ • ਠ࠺Oncall๢‫(ګ‬ฬᚆਮ๐+Ոૡದ๞ඪ೮)! ֛ḵ!

19.服务治理实践(3) +易用性 V 细粒度埋点监控 Clientғ Serverғ

20.服务治理实践(() +性能提升 - 铂金段t :1?:服务框架最大性能 • (核(4,%K数据包3DhM测试 • 原则:框架自身不造成应用瓶颈

21. 系统化性能q化实践 V 一站式性能q化平台SDBJNEJ 流程化、自动化 零门槛、u成本 点击&次鼠标 6分钟出诊断报告 诊断对服务负面影响小,支持 b务高峰期使用 累计+ 诊断次数:数万 诊断服务数量:数千c 帮助用户解决的性能问题:上千c

22.系统化性能q化实践 V 核心实现解析 • s统 PPMfIJEP 基于 QBfE-NMInR + /SM 字节码修改 • 只在 QBfE-NMInR 采样,采样点不随机; • 影响 65? q化和 QBfE-NMInR 分布,精确度略差; • 影响服务运行,诊断结束后需重启,线上不可用。 • SDBJNEJ 使用 信号量 + 6VM?5 io驱动 • 基于定时中断的采样,采样点随机(准确性高); • 不修改m码,不影响 65? q化; • 性能影响<3%,诊断结束后,无需重启服务。

23.服务治理实践()) + 服务保障v系 - 钻石段t 2.ᯈ᷐ ᴴၞ! 1.๐‫ۓ‬ 3.ᆤෙ ᰄ๦! ᴳᕆ! ๐‫כۓ‬ᵑ֛ᔮ! 6.‫ق‬᱾ 4.ඳᵑ ᪠ܴၥ! ᄍᕞ! 5.᱾᪠ ᕆၞᰁ ᵍᐶ!

24. 链路级流量隔离 • 全链路灰度发布 • 全链路压测 • 全链路故障演练

25.服务治理实践(6)-星耀段t+ 异地容灾 扩展

26.回顾:服务治理系统的三项必备能力 % & 3 标准化 易用性 高性能 降u服务间协作成本 提高服务开发效率 确保框架性能不是瓶颈

27.• 服务治理系统OCTO演进及架构设计! W 美团点评服务治理实践 W :1?:在SEPTIDE MEQh 和开源方向进展

28.SEPTIDE MEQh 给服务治理的机遇和挑战 标准 化 易用 性 高性 能

29. :1?: MEQh V 整v设计 自研ef,采纳5QRIM协 议 规范,先对齐 :1?:现有服务治理能 力 基于3nTMy深度定制 前期先支持小语种服务, 再普及6BTB服务,设计上 具备M<、20中间o接入 能力