DolphinScheduler新特性及Roadmap路线

DolphinScheduler社区情况介绍,缘何研发DolphinScheduler?即将发布的1.3.0的新特性讲解,架构演进,多目录支持,条件分支、datax/sqoop,ambari插件
K8s支持等等,Roadmap

展开查看详情

1.Apache DolphinScheduler - 分布式易扩展的可视化 ETL 调度系统 代立冬 PPMC & 易观大数据平台总监

2.DolphinScheduler 部分用户案例(排名不分先后) Fordeal

3.DolphinScheduler 社区情况 易观 头条 阿里 腾讯 京东 滴滴 华为 平安 360 小米 陌陌 观远 多点 同程 中移动 趣加 荔枝 贡献者分布

4.缘何研发DolphinScheduler ? 01 调度需求 可视化DAG 简单易操作 实时查看运行状态 04 每天数万任务运行 依赖 任务自依赖 02 流程依赖等 调用高可用 流程可容错能力 失败重试、回滚、转移 05 简单可维护 任务日志/告警机制 03 便于排错 易维护 丰富的任务类型 跨语言 自定义插件机制

5.Apache DolphinScheduler 简介 Apache DolphinScheduler是一个分布式易扩展的 可视化DAG工作流任务调度开源系统。解决数据研 发ETL 错综复杂的依赖关系,不能直观监控任务健 康状态等问题。DolphinScheduler以DAG流式的方 式将Task组装起来,可实时监控任务的运行状态, 同时支持重试、从指定节点恢复失败、暂停及Kill任 务等操作

6.Apache DolphinScheduler 特性 高可靠性 简单易用 去中心化的多Master和多Worker, 自 DAG监控界面,所有流程定义都是可视化, 身支持HA功能, 实现超大规模任务调 通过拖拽任务定制DAG,通过API方式与第 度,采用任务队列和自身保护机制来 三方系统对接, 一键部署 避免过载,不会造成机器卡死 丰富的使用场景 高扩展性 支持暂停恢复操作. 支持多租户,更好 支持自定义任务类型,调度器使用分布式调度, 的应对大数据的使用场景. 支持更多的 调度能力随集群线性增长,Master和Worker支 任务类型,如 spark, hive, mr, python, 持动态上下线 sub_process, shell

7.Apache DolphinScheduler 能力 • 支持Shell、MR、Spark、 • 去中心化设计确保系统的 • 工作流优先级、任务优先 • Task以DAG形式关联, 稳定、高可用。 SQL、依赖等10多种任务类型。 级,全局参数及局部自定 实时监控任务的状态。 义参数 • 工作流可定时、依赖、手 • 完善的系统服务监控,任 • 支持补数、多租户、日志 • 支持每日十万数据量级任 务稳定运行 动、暂停/停止/恢复 务超时告警/失败。 在线查看及资源在线管理

8.DolphinScheduler 前世

9. DolphinScheduler 今生 - 1.3.0 ü 数据库减压,减少极端情况下的可 能造成的调度延时 ü Worker去DB、职责更单一 ü Master和Worker直接通信,降低 延时 ü Master多种策略分发任务 - Worker节点的三种选择:随机、循环和CPU和 内存的线性加权负载平衡

10.DolphinScheduler 1.3.0 新特性 – 资源中心多目录

11.DolphinScheduler 1.3.0 新特性 – Datax 自定义模板

12.DolphinScheduler 1.3.0 新特性 – Sqoop

13.DolphinScheduler 1.3.0 新特性 – 条件分支

14.DolphinScheduler 1.3.0 新特性 – Ambari插件

15.DolphinScheduler 1.3.0 新特性 – K8S 支持 优点: 动态扩展 Graceful shutdown 本身的维护成本低 缺点: K8S运维经验 待实现: 任务Log需要持久化共享存储

16. DolphinScheduler 1.3.0 新特性 – DAG一键格式化 适合open api调用场景

17. DolphinScheduler 1.3.0 新特性 ü 支持Windows系统运行任务 ü 批量导出和导入工作流 ü 工作流复制 ü 删流程实例级联删除任务日志 ü 简化配置,优化部署体验 ü 完善自动化CI、CD ü 添加钉钉告警

18.DolphinScheduler 1.3.0 新特性 – 流程图美化

19.DolphinScheduler Roadmap 总体依照社区需求和关注度来安排功能优先级 o master重构:建立 api 和 master 直接通信等 o 任务参数传递 o 任务类型插件化Plugin o 工作流触发 o 数据质量 o 工作流血缘关系 o 列表依赖(上游依赖) o 告警服务化,提供API o 支持多集群上线发布 o 工作流版本管理 o 权限改造 o Easy to use 如果有好建议或有兴趣,欢迎邮件讨论 更多参考 work plan: https://github.com/apache/incubator-dolphinscheduler/projects/1

20.DolphinScheduler 项目发展历程 1.0.1、1.0.2、 DolphinScheduler 决定开源 1.0.3 架构设计 Apache第一个版本 花了2个月进行重构升级 相继推出1.0.1、1.0.2、 1.0.3版本 1.2.0 2017.12 2019.02 2019.05 2019.12 … 2018.05 2019.03 2019.08 内部使用 外部种子用户使用 进入apache 千帆产品线使用 3月30号正式对外开源 – 1.0.0版本 孵化器

21.Slogan 工具选的好 下班回家早 SUCCESS zz z 调度用的对 半夜安心睡 z z z

22.DS调度让易观方舟智能数据平台与企业数仓融合,打造统一数据 平台 展示 层 企业大数据BI/企业大数据Dashboard 应用 EA 自助查询 自建系统 UBA OLAP Data Maining AI 层 JDBC-SQL Restful-API 服务 Query Proxy API 数据调度 层 Dolphin Scheduler 方舟 即时查询引擎秒算 认证中心 数据管理 SQL JDBC API 调度管理 权限中心 数据存储引擎 快速存储 任务调度 Dispatch Teradata DAG处理 营销引擎 Mysql Redis 数据 /Greenplum… 资源管理 Event Profile 连接 层 数据 Yarn 器 处理 算法中心 重跑重试 模型 Hive HBase Mongo … 服务监控 DumpMR MergerMR Monitor 接入控制 数据安全鉴权 方舟 数据传输接收平台 企业数据传输接收平台 接收 层 报警监控 Netty 方舟 Queue KafKa 策略配置 边缘 方舟 计算 DB Connectors 方舟 Java/C/PHP Edge SDK 方舟 Android/iOS Edge SDK IOT Edge SDK 开放的技术 开放的PaaS 开放的社区 企业自有大数据平台/ 数据仓库

23. DolphinScheduler 资源 Ø 在线DEMO: http://106.75.43.194:8888/ Ø 官网:https://dolphinscheduler.apache.org Ø 开源地址: https://github.com/apache/incubator-dolphinscheduler 欢迎加入贡献队伍: https://dolphinscheduler.apache.org/zh-cn/docs/development/contribute.html 获得帮助: ØSubmit an issue ØMail to dev-subscribe@dolphinscheduler.apache.org, follow the reply to subscribe the mail list.

24.数据驱动 精益成长 n 易观方舟 n 易观千帆 n 易观万像 网址: www.analysys.cn 客户热线:4006-010-230 / 4006-010-231 微博:@Analysys易观 加入社区