以Taier为基石构建大数据开发平台-赵章万

发布于

516

人观看

Taier 是在经过多年的探索与实践过程中，逐步积累的产物，作为一个分布式可视化的DAG任务调度系统，大数据开发人员可以在 Taier 直接进行业务逻辑的开发，而不用关心任务错综复杂的依赖关系与底层的大数据平台的架构实现，将工作的重心更多地聚焦在业务之中，Taier 在构建大数据开发平台时，可以承担核心的调度任务，来提供大数据组件对接的能力。Taier 支持目前开源社区主流的数据源与计算组件。如 MySQL、Hive、Presto 等数据源和 Flink、Spark 两种计算组件。。 Github：https://github.com/DTStack/Taier 。本次分享主要围绕以下方面来进行：演讲：《以Taier为基石构建大数据开发平台》 1. 什么是 Taier ？

核心功能介绍：任务调度、多集群兼容
开源历程

Taier 在构建大数据平台的设计思路

单一原则：解耦任务与实例，任务调度与实例提交、组件插件化
拓展性：组件插化可插拔设计
兼容性：商业化Hadoop版本多样性的兼容

Taier 的实战与案例分享

个人开发者案例：用Taier实现CDC功能
云平台案例：某金融公司基于Taier构建的Saas平台

赵章万（花名偷天），袋鼠云资深Java开发专家，平台开发团队负责人，拥有10年大数据系统与架构经验。同时作为开源项目负责人，从内部孵化了开源项目Taier（大数据分布式可视化DAG任务调度系统），参与过多场外部技术论坛等活动。

展开查看详情

1 .以 Taier 为基石构建大数据开发平台演讲人：赵章万（Taier项目负责人、袋鼠云资深技术专家）

2 .目录 1 什么是 Taier 2 Taier 开源意义 3 Taier 构建大数据平台的技术思路 4 Taier 在袋鼠云的落地实践 5 Taier 的未来规划

3 .01 什么是Taier

4 .Taier基本介绍 Taier 是一个开源的大数据任务调度引擎，集任务开发、任务调度、任务运维为一体的一站式大数据开发平台，于 2022.2.22 同步在 GitHub、gitee 对外开源，支持任务类型：数据同步、实时采集、Flink SQL、Spark SQL 、HiveSQL、其他类SQL任务。开源地址： https://github.com/DTStack/Taier https://gitee.com/dtstack_dev_0/Taier

5 .Taier 的由来雏形数据开发集群管理数据源中心 Taier SqlParser DataSourceX ChunJun

6 .Taier发展历程 2022.10 2022.07 1.3 version Ready： Taier-plugin 融合 2022.05 支持flink on standalone Release 1.2 version：支持PySpark、新增工作流 SparkJar 2022.02 新增OceanBase 增强数据同步的向导模 SQL 式成功申请Gitee 新增Flink jar任务 2021.11 GVP 控制台全新升级正式对外开源 Release 1.1 version：新增Hive SQL Release 1.0 version：新增Flink SQL、实支持与Chunjun集时采集确定开源计划成新增实时任务运维支持数据同步、支持Flink UDF、 SparkSql Spark UDF

7 .Taier社区解决Issue Star 250+ 500+ 28 3 Contributor 版本Release

8 .02 Taier开源的意义

9 .举个栗子如何实现一个Mysql到Hive的数据同步任务的场景？数据同步任务运行完成后，对Hive表立即触发一个SparkSQL 任务的计算！周期性运行！

10 .Taier之道

11 .Taier之道—配置集群

12 .Taier之道—配置集群

13 .Taier之道—数据同步

14 .Taier之道—任务依赖

15 .Taier之道—周期调度

16 .Taier之道—周期调度

17 .Taier之道—主要流程 data develop console&schedules 集群创建绑定租户集群绑定实例生成开发任务任务提交作业提交跟踪作业结果获取运维监控

18 .03 Taier构建大数据平台的技术思路

19 .架构设计 Taier-console （控制台） Taier-data-develop Taier-scheduler （任务开发）（实例调度) DatasourceX （数据源处理） Taier-plugins Chunjun (任务提交) (数据计算) Hadoop/Spark/Flink/RDBMS （集群/计算/SQL）

20 .控制台组件化根据集群环境信息，可以通过控制台配置集群（Cluster）每个集群下组件按照功能可以划分为公共组件、资源调度组件、存储组件、计算组件（ComponentSchedule）四种功能组件同一功能组件下需要按照不同的类型做细化区分，如资源调度组件可以细分为YARN、KUBERNETES组件（Component）根据资源调度组件、存储组件和计算组件，最终确定一个具体的（Taier-plugin）插件，如 yarn2-hdfs2-flink120

21 .控制台 Job A Task Cluster A Job B A flink tenant flink plugin Cluster B B spark tenant spark plugin

22 .集成DatasourceX、ChunJun 插件化数据源插件化任务计算插件化支持 Chunjun 实现 flink CDC 01 02 数据源插件支持30+ 种不同类型的数据源，满足数据开发大部分场景任务提交插件化资源管理插件化 • 支持Flink、spark 多个版本 04 03 实现各个商业化版本接口对 Yarn 的兼容 • 支持RDBM任务类型

23 .作业&调度 • IDE WEB 编辑器/界面可视化 • 实例拥有依赖体系，父子依赖，自依赖 • T+1 生成周期实例、立即运行和补数据任务作业运行调度实例配置周期作业提交构建实例任务开发

24 .作业&调度任务开发提交配置作业周期调度构建实例实例

25 .04 Taier在袋鼠云的落地实践

26 .袋鼠云 - 全链路数字化技术与服务提供商客户数据洞察平台指标管理分析平台 DataOps DataTag EasyIndex DevOps 标签实体标签管理标签服务指标生成指标查询指标服务数据集成自动化部署数据共享服务 EasyAPI 数据异常告警 API生成 API市场 API注册流速控制行级权限弹性伸缩 API服务数据处理数据资产服务自修复 DataAssets 元模型数据血缘数据安全规则配置规则校验质量报告数据模型监控告警离线开发平台实时开发平台数据安全 BatchWorks StreamWorks 版本升级离线采集任务开发 DataOps 实时采集实时计算数据还原数据生命周期日志搜索管理大数据基础平台数据湖平台 EasyMR DataLake ··· ··· 安全稳定湖仓一体统一元数据流批一体 ··· ··· 海量计算分布式存储

27 .袋鼠云技术架构 Interface Gateway SDK Web Browser HTTP HTTP Aiworks Batch Stream API Message APP Valid Assets Tag Index DataSync Application Depends On The BaseService Execute Job Base Taier Service metaCenter bizCenter Every Service Depends On The Storage ChunJun Spark Cluster Redi Mysql ZK Storage s Cluster

28 .05 Taier未来规划

29 .强化调度能力 T+0任务调度基线告警海量补数据 Worker分离

1点赞

1收藏

2下载