- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
以Taier为基石构建大数据开发平台-赵章万
Taier 是在经过多年的探索与实践过程中,逐步积累的产物,作为一个分布式可视化的DAG任务调度系统,大数据开发人员可以在 Taier 直接进行业务逻辑的开发,而不用关心任务错综复杂的依赖关系与底层的大数据平台的架构实现,将工作的重心更多地聚焦在业务之中,Taier 在构建大数据开发平台时,可以承担核心的调度任务,来提供大数据组件对接的能力。Taier 支持目前开源社区主流的数据源与计算组件。如 MySQL、Hive、Presto 等数据源和 Flink、Spark 两种计算组件。。 Github:https://github.com/DTStack/Taier 。 本次分享主要围绕以下方面来进行:演讲:《以Taier为基石构建大数据开发平台》 1. 什么是 Taier ?
- 核心功能介绍:任务调度、多集群兼容
- 开源历程
- Taier 在构建大数据平台的设计思路
- 单一原则:解耦任务与实例,任务调度与实例提交、组件插件化
- 拓展性:组件插化可插拔设计
- 兼容性:商业化Hadoop版本多样性的兼容
- Taier 的实战与案例分享
- 个人开发者案例:用Taier实现CDC功能
- 云平台案例:某金融公司基于Taier构建的Saas平台
赵章万(花名偷天),袋鼠云资深Java开发专家,平台开发团队负责人,拥有10年大数据系统与架构经验。同时作为开源项目负责人,从内部孵化了开源项目Taier(大数据分布式可视化DAG任务调度系统),参与过多场外部技术论坛等活动。
展开查看详情
1 .以 Taier 为基石构建 大数据开发平台 演讲人:赵章万 (Taier项目负责人、袋鼠云资 深技术专家)
2 .目录 1 什么是 Taier 2 Taier 开源意义 3 Taier 构建大数据平台的技术思路 4 Taier 在袋鼠云的落地实践 5 Taier 的未来规划
3 .01 什么是Taier
4 .Taier基本介绍 Taier 是一个开源的大数据任务调度引擎,集 任务开发、任务调度、任务运 维 为一体的一站式大数据开发平台,于 2022.2.22 同步在 GitHub、gitee 对外开源 , 支持任务类型:数据同步、实时采集、Flink SQL、Spark SQL 、HiveSQL、其他类SQL任务。 开源地址: https://github.com/DTStack/Taier https://gitee.com/dtstack_dev_0/Taier
5 .Taier 的由来 雏形 数据开发 集群管理 数据源中心 Taier SqlParser DataSourceX ChunJun
6 .Taier发展历程 2022.10 2022.07 1.3 version Ready: Taier-plugin 融合 2022.05 支持flink on standalone Release 1.2 version: 支持PySpark、 新增工作流 SparkJar 2022.02 新增OceanBase 增强数据同步的向导模 SQL 式 成功申请Gitee 新增Flink jar任务 2021.11 GVP 控制台全新升级 正式对外开源 Release 1.1 version: 新增Hive SQL Release 1.0 version: 新增Flink SQL、实 支持与Chunjun集 时采集 确定开源计划 成 新增实时任务运维 支持数据同步、 支持Flink UDF、 SparkSql Spark UDF
7 .Taier社区 解决Issue Star 250+ 500+ 28 3 Contributor 版本Release
8 .02 Taier开源的意义
9 .举个栗子 如何实现一个Mysql到Hive的数据同步任务的场景? 数据同步任务运行完成后,对Hive表立即触发一个SparkSQL 任务的计算! 周期性运行!
10 .Taier之道
11 .Taier之道—配置集群
12 .Taier之道—配置集群
13 .Taier之道—数据同步
14 .Taier之道—任务依赖
15 .Taier之道—周期调度
16 .Taier之道—周期调度
17 .Taier之道—主要流程 data develop console&schedules 集群创建 绑定租户 集群绑定 实例生成 开发任务 任务提交 作业提交 跟踪作业 结果获取 运维监控
18 .03 Taier构建大数据平台的技术思路
19 .架构设计 Taier-console (控制台) Taier-data-develop Taier-scheduler (任务开发) (实例调度) DatasourceX (数据源处理) Taier-plugins Chunjun (任务提交) (数据计算) Hadoop/Spark/Flink/RDBMS (集群/计算/SQL)
20 .控制台 组件化 根据集群环境信息,可以通过控制台配置集群(Cluster) 每个集群下组件按照功能可以划分为公共组件、资源调度 组件、存储组件、计算组件(ComponentSchedule)四 种功能组件 同一功能组件下需要按照不同的类型做细化区分,如资源 调度组件可以细分为YARN、KUBERNETES组件 (Component) 根据资源调度组件、存储组件和计算组件,最终确定一个 具体的(Taier-plugin)插件,如 yarn2-hdfs2-flink120
21 .控制台 Job A Task Cluster A Job B A flink tenant flink plugin Cluster B B spark tenant spark plugin
22 .集成DatasourceX、ChunJun 插件化 数据源插件化 任务计算插件化 支持 Chunjun 实现 flink CDC 01 02 数据源插件支持30+ 种不同类型的数据源,满 足数据开发大部分场景 任务提交插件化 资源管理插件化 • 支持Flink、spark 多个版本 04 03 实现各个商业化版本接口对 Yarn 的兼容 • 支持RDBM任务类型
23 .作业&调度 • IDE WEB 编辑器/界面可视化 • 实例拥有依赖体系,父子依赖,自依赖 • T+1 生成周期实例、立即运行和补数据任务 作业运行 调度实例 配置周期 作业提交 构建实例 任务开发
24 .作业&调度 任务 开发 提交 配置 作业 周期 调度 构建 实例 实例
25 .04 Taier在袋鼠云的落地实践
26 .袋鼠云 - 全链路数字化技术与服务提供商 客户数据洞察平台 指标管理分析平台 DataOps DataTag EasyIndex DevOps 标签实体 标签管理 标签服务 指标生成 指标查询 指标服务 数据集成 自动化部署 数据共享服务 EasyAPI 数据异常告警 API生成 API市场 API注册 流速控制 行级权限 弹性伸缩 API服务 数据处理 数据资产 服务自修复 DataAssets 元模型 数据血缘 数据安全 规则配置 规则校验 质量报告 数据模型 监控告警 离线开发平台 实时开发平台 数据安全 BatchWorks StreamWorks 版本升级 离线采集 任务开发 DataOps 实时采集 实时计算 数据还原 数据生命周期 日志搜索 管理 大数据基础平台 数据湖平台 EasyMR DataLake ··· ··· 安全稳定 湖仓一体 统一元数据 流批一体 ··· ··· 海量计算 分布式存储
27 .袋鼠云技术架构 Interface Gateway SDK Web Browser HTTP HTTP Aiworks Batch Stream API Message APP Valid Assets Tag Index DataSync Application Depends On The BaseService Execute Job Base Taier Service metaCenter bizCenter Every Service Depends On The Storage ChunJun Spark Cluster Redi Mysql ZK Storage s Cluster
28 .05 Taier未来规划
29 .强化调度能力 T+0任务调度 基线告警 海量补数据 Worker分离