申请试用
HOT
登录
注册
 
企业大叔PaaS平台架构演变之路
0 点赞
0 收藏
0下载
Apache Spark中国技术交流社区
/
发布于
/
21
人观看

活动介绍

本次分享将为大家详细介绍MobTech大数据PAAS平台及各个子平台的整体架构,分析PAAS平台从搭建到新组件开发,再到迭代升级过程中遇到的一系列问题以及解决思路,共同探讨未来的升级方向。

系列问题难点:
1、创业公司搭建大数据PAAS平台的技术选型,自研还是开源产品?
2、平台大而全还是小而美
3、PAAS平台的定位,如何支撑起企业的精细化运营

技术方向亮点:
1、codeweaver(微众linkis)架构
2、MobTech拓展血缘系统架构设计

讲师介绍

大宗师,MobTech 大数据PAAS平台负责人,毕业于上海财经大学数学专业,开源项目Apache Dophinscheduler,微众linkis贡献者。在Mobtech大数据平台的搭建和开发工作,负责分布式调度系统、元数据管理、血缘分析系统的研发工作。

展开查看详情

1.企业大数据PaaS平台 架构演变之路 www.mob.com

2.CONTENT 1 公司介绍&大数据背景 2 PaaS平台探索历程 3 平台介绍 4 遇到的问题和思考

3.1 公司介绍&大数据背景

4.

5.开发者服务 数据分析 大数据业务

6.2 PaaS平台探索历程

7.起步期 发展期 整合重构期 • 搭建大数据集 • 自研系统上线 • 产品导向 群 • 需求导向 • 整合 • 构建数据仓库 • 平台迅速发展 • 开源

8.起步期 优点 • 架构简单,方便运维 • 业务响应速度快,开发周期短 弊端 • 开发流程不规范,缺乏统一管理 • 人力消耗大 • 数据安全问题无法保证 • 即席查询需求

9.起步期 发展期 整合重构期 • 搭建大数据集 • 自研系统上线 • 产品导向 群 • 需求导向 • 整合 • 构建数据仓库 • 平台迅速发展 • 开源

10.发展期

11.发展期 优点 • 平台快速发展,解决了大部分问 自研调度系统 题 • 释放大数据开发资源,开发效率 提升 自助查询系统 • 规范流程,保证数据安全 元数据管理系统 弊端 • 平台数量增加,开发人力紧缺 其他辅助系统 • 数据量、任务增加,缺少资源管理 • 需求导向 • 用户体验不佳 • 使用上存在门槛 • 价值无法体现

12.起步期 发展期 整合重构期 • 搭建大数据集 • 自研系统上线 • 产品导向 群 • 需求导向 • 整合 • 构建数据仓库 • 平台迅速发展 • 开源

13. 整合重构期 • 由原来的需求导向,转变 为产品导向,思考怎样才 能做出好的平台产品 • 减少子平台数量,整合现 有系统 • 由纯自研开始向自研开源 相结合转变

14.3 平台介绍

15.数据开发平台CodeWeaver

16.数据开发平台CodeWeaver 架构设计 • 便于开发和扩展 • 支持资源管控 • 实时的任务进度,详细的日志推送 • 方便对接其他系统

17.数据开发平台CodeWeaver 数据开发流程 以前的数据开发流程 现在的数据开发流程

18.数据地图Jarvis

19.数据地图Jarvis 1 2 3 4 统一的元数据模型 全路径的监控 资产化管理 数据价值输出

20.数据地图Jarvis 相关功能 资产管理 生命周期管理 生命周期设置 数仓信息展示 首页展示,个人资产展示 业务元信息设置 定期告警,清理 数据质量监控 数据价值体现 血缘触发,定时调度 个人资产统计,投入产出分析 规则丰富 表和标签的评分体系 自助配置

21.数据地图Jarvis 相关功能 hive实现 实现ExecuteWithHookContext接口 spark sql实现 实现QueryExecutionListener接口 presto实现 实现EventListener接口 采集执行sql,用户,队列,来源去向表、字段、分 区。Yarn任务同时采集队列, applicationId/map/reduce数,任务时长,计算任 务资源

22.数据地图Jarvis 相关功能 血缘依赖分析 图形化展现,表与表,表与任务 历史血缘查询

23.4 遇到的问题和思考

24.创业公司搭建大数据平台的选型 开源还是自研?

25.开源or自研 • 市面上开源大数据产品相对丰富 开源 • 相对自研,开源产品开发成本大幅度降低 • 社区活跃,有全球顶尖的开发者参与研发和维护 • 结合自身业务场景的特点,可以进行定制化需求 自研 • 相对于二次开发,更加灵活

26.怎样才能发展成一个好的平台?

27.怎样发展成一个好的平台 支撑业务 产品体验 技术沉淀与共享 支撑企业的精细化运营

28.怎样发展成一个好的平台 未来的发展方向 • 降本增效,减少大数据运维成本,提高开发效率 • 打造全平台的分布式监控系统,保证数据从生产到使用 的全流程可靠性,提升数据价值 • 从自动化到智能化

29. 让世界心中有数 —谢谢观看— 关注我们 www.mob.com

0 点赞
0 收藏
0下载