- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
美团点评微服务OCTO-曹继光
大纲:
- 服务治理系统octo演进及架构设计
- 美团点评服务治理实践
- octo在service mesh 及开源方向进展
展开查看详情
1 .美团点评微服务框架及治理系统:1?: 演进g路 曹继光 美团点评 资深技术a家
2 .็ᖀط चᏐᎸݎଘݣᩒႮದӫਹ W &0%(年加入美团,先后负责 服务框架及治理v系、性能 q化、S3?化等方向 W 经历h美团服务治理v系l0 到%,再到发展完善的各c阶 段
3 .W 服务治理系统:1?:演进及架构设计 W 美团点评服务治理实践 W :1?:在SEPTIDE MEQh 和开源方向进展
4 .美团点评服务治理系统:1?:概况 ݪلᕆचᏐᦡෞ҅! ᥟፍ๐ۓහ ӡՊᕆ᧣አ/ॠ! ᰁහӡӻ҅ ! ᜓᅩහ܈ӡ! ඪඅکਹ(क़ ܕᯈᭆ)҅ک 在公司b务 ମ(ࢫᨻ̵ᯌ 侧获得较好 ମ)̵ඪ՞ᒵ 的口碑和影 ಅํӱ!ۓ 响力
5 .早期遇到的问题 • ଫአᬰᑕፗᬳ҅୩ᘠݳҔဳٙӾ ஞ౮ԅኒ᷀҅ӱۓ๐ۓीᳩᬥሕ҅ ݷ๐!ۓ ᵙզಘ! • ZKԁᜓᅩ҅ᷚᴾṛ! • ᕮғᔮᕹᛔᚆێஇᑱᏈ! • ग़ຝଚਂ҅ӧ᭗! • ຝ๋ṛTPSӧکӞӡ҅෫ဩ ๐ۓຝ! ჿ᪃ṛଚݎ๐ۓᵱ! • ᕮғຽٵ۸ଘ֗҅ᚆ୧! • ๐ۓလቘۑᚆᗌ०҅ӱۓ๐ۓ ๐ۓလቘ! ᬩ០౮ṛ! • ᕮғ๐ۓလቘᔮᕹஉᵙአ!
6 .问题拆解 突破路径 • ݄Ӿஞғړفୗդቘ҅ಥचᏐလ 1! ቘۑᚆ҅୧۸Ӿஞ୩ׁᩢ! 2! • ൷ԁᜓᅩ҅فᇿᒈ๐ۓᇫாፊഴᔮᕹ! 3! • ຽٵ۸๐ۓຝ҅܋ฃአ̵ᚆ! • ෆ֛ړೆғᔮᕹ 4! ᚆێೆکړग़ཛྷ ࣘ҅ݱཛྷࣘᇿᒈ ᬽդ!
7 .:1?:系统架构 :1?:-NS W :1?:-NS:命名服务 W S4/GEnR:服务治理m理 W :1?:-=P1:轻量级服务框架 W SDBnnEP:服务状态监控系统 W :1?:-PMPRBJ:一站式治理平台 W ABRR V :1?:服务调用统计
8 .核心设计解析(%):S4/GEnR V 服务治理m理
9 .核心设计解析(%):S4/GEnR V 逻辑架构
10 .核心设计解析(&):SDBnnEP - 服务状态监控系统 定t:中心化节点健康监测;负责监控/更新节点状态 q势:相对于点对点心跳,基本不r增加b务应用负载,确保节点状态全局唯一性
11 .核心设计解析(&):SDBnnEP V 特点解析 ᅒᚆێғ֢ ԅ಄ඳᵑᥴ ṛݢᶌғᆤෙ ҅ګᴠྊᛔ ٬ොໜ҅ 1min൹ᴻඳ ṛٵᏟғ ଉଃ !ڣ ᵑ಄ၞᰁ! Detector & Updater᯿ ṛݢአғݶ ໊ḵҔ᬴റ ಄റၥҔ ၥᥢᗑᕶಮ ෫ܔᅩඳᵑ! ۖଗಟ! ṛᚆғ चԭ Akka Actor ཛྷ ࣳҔ10ᑁ ٖ༄ၥහ ܈ӡᜓᅩ!
12 . 核心设计解析(&):SDBnnEP V 核心实现解析 Provider ֜᧲ଉ(᎖ಮۖᛘጱ)ڣғ first check second check • cpuگ • ᗑᕶಮۖ • fullgc Scanner-detector Scanner-updater ই֜ਫሿғ • 队列 DelayQueue 500ms • ᳵ 500ms റၥ꧌ݎړഀDouble checkশێ
13 .W 服务治理系统:1?:演进及架构设计 W 美团点评服务治理实践 W :1?:在SEPTIDE MEQh 和开源方向进展
14 .服务治理演进各c阶段 星耀 Ø 跨地区容灾和扩展能力 青铜 Ø 数千万订单量级b务强需 Ø 基础能力达标 求 6 % 白银 Ø 标准化水平良好 & ) 钻石 3 Ø 服务保障能力强 Ø 胜p%千万订单量级b务 ( 黄金 铂金 Ø 性能一流 Ø 易用性q秀 Ø 足n支撑数百万订单量级b务
15 .服务治理实践(%):基础能力达标 - 青铜段t 注册中心 服务运营 • 服务注册 • 配置管理 • 服务概要 • 服务分组 • 提y者 • 节点管理 • 消费者 • 服务鉴权 :1?:-PMPRBJ 监控报警 一站式服务治理平台 数据分析 • 节点监控 • 性能指标 • 性能监控 • 来源去向 • b务监控 • f机分析 • 异常监控 • 数据报表 • 调用链路
16 .数据分析:多维度数据统计
17 .服务治理实践(&) + 提升标准化-白银段t • තग़ӻ๐ۓຝ҅ᴠྊӱ׆ۓ᯿॔᭜ৼ! • ӱۓୌᒈݶوຽ҅ٵᘶ(ݎݳইNode.js)! ๐ۓຝᕹ • ᗦࢫ̵ᅩᦧ׆๐ۓຝ᭗̵ᣟ!ݳ Ӟ! • ԆᥝचᏐᕟկᕹӞ۱ԅINF-BOM҅ (ྯଙവӞེقᰁᇇ܋ᕆ)! • ݷ๐ۓOCTO-NSԅग़ຝᕹӞ᭗׀ඪ೮! • ਠ࠺Ӟᒊୗ๐ۓလቘଘݣOCTO-Portal҅ԅ֛قӱ҅׆ۓ׀Ӟᛘጱֵአ ݷ๐ۓᕹ ֛ḵ! Ӟ! • HTTP๐ۓ୩ׁᩢDNS̵Nginx҅᧣አ᪠ஆׁᩢग़҅ฃݑඳᵑߥ! • ٖᗑ๐ۓᕹӞතکOCTO-RPC҅܋ᚆ̵ᴳ֗ඳᵑሲ! තٖᗑ • ᴳ֗ӱٖݎۓᗑ๐ۓᭌೠ౮! Http๐!ۓ
18 .服务治理实践(3) +易用性 - 黄金段t • ବ੶လቘۑᚆӥᑏکSGAgent҅ۖாۑᚆӤᑏکOCTO-Portal! ᰁᕆ๐ • ۓᓌ۸ᯈᗝ҅ٺᒫӣොׁᩢ! ຝ! • ӿጱ᧣አ᱾᪠҅௳מԭள᭛ਧ֖ᳯ᷌ሾᜓ! • ࣁຝ׆ਫሿᕡᔉଶጱईᅩፊഴ҅ᴳ֗ᳯ᷌ഭັ౮! ڊሿᳯ᷌অ ഭັ! • ݢᥤ۸ၥᦶૡٍғԫᬰᦶ᧣ᦓܐګӧො֛҅ḵളᬪHTTP ၨᥦၥᦶ! • OCTO-RPCඪ೮ၞᰁ୯ࢧګනғܴၥࢧ୭࣋วֵ҅አ֛ḵᔄ֒URLಢᰁࢧන! ᜉঅጱአಁ • ਠ࠺Oncall(ګฬᚆਮ๐+Ոૡದඪ೮)! ֛ḵ!
19 .服务治理实践(3) +易用性 V 细粒度埋点监控 Clientғ Serverғ
20 .服务治理实践(() +性能提升 - 铂金段t :1?:服务框架最大性能 • (核(4,%K数据包3DhM测试 • 原则:框架自身不造成应用瓶颈
21 . 系统化性能q化实践 V 一站式性能q化平台SDBJNEJ 流程化、自动化 零门槛、u成本 点击&次鼠标 6分钟出诊断报告 诊断对服务负面影响小,支持 b务高峰期使用 累计+ 诊断次数:数万 诊断服务数量:数千c 帮助用户解决的性能问题:上千c
22 .系统化性能q化实践 V 核心实现解析 • s统 PPMfIJEP 基于 QBfE-NMInR + /SM 字节码修改 • 只在 QBfE-NMInR 采样,采样点不随机; • 影响 65? q化和 QBfE-NMInR 分布,精确度略差; • 影响服务运行,诊断结束后需重启,线上不可用。 • SDBJNEJ 使用 信号量 + 6VM?5 io驱动 • 基于定时中断的采样,采样点随机(准确性高); • 不修改m码,不影响 65? q化; • 性能影响<3%,诊断结束后,无需重启服务。
23 .服务治理实践()) + 服务保障v系 - 钻石段t 2.ᯈ᷐ ᴴၞ! 1.๐ۓ 3.ᆤෙ ᰄ! ᴳᕆ! ๐כۓᵑ֛ᔮ! 6.ق᱾ 4.ඳᵑ ᪠ܴၥ! ᄍᕞ! 5.᱾᪠ ᕆၞᰁ ᵍᐶ!
24 . 链路级流量隔离 • 全链路灰度发布 • 全链路压测 • 全链路故障演练
25 .服务治理实践(6)-星耀段t+ 异地容灾 扩展
26 .回顾:服务治理系统的三项必备能力 % & 3 标准化 易用性 高性能 降u服务间协作成本 提高服务开发效率 确保框架性能不是瓶颈
27 .• 服务治理系统OCTO演进及架构设计! W 美团点评服务治理实践 W :1?:在SEPTIDE MEQh 和开源方向进展
28 .SEPTIDE MEQh 给服务治理的机遇和挑战 标准 化 易用 性 高性 能
29 . :1?: MEQh V 整v设计 自研ef,采纳5QRIM协 议 规范,先对齐 :1?:现有服务治理能 力 基于3nTMy深度定制 前期先支持小语种服务, 再普及6BTB服务,设计上 具备M<、20中间o接入 能力