- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
Aliyun EMR X Apache DolphinScheduler云与开源合作共生
展开查看详情
1 .Aliyun EMR X Apache DolphinScheduler 云与开源合作共生 孙一凡 阿里云EMR数据开发团队负责人
2 .01 我们是谁
3 .EMR数据开发团队 01 深度参与和贡献大数据开发 开源项目 02 基于开源组件打造云原生 大数据开发产品
4 .02 为什么选择 DolphinScheduler
5 .各大开源调度系统对比
6 .产品/技术 DolphinScheduler Airflow Azkaban Ozzie 定位 DataOps Common Workflow Hadoop Workflow Hadoop Workflow Shell/MR/Spark/Flin Python/Bash/Http/M HadoopShell/Java/ MR/Pig/Hive/Sqoop/ 作业类型支持 k/SQL/DataX/SeaTu ySQL/CustomOperat HadoopJava/Pig/Hi Spark/Shell nnel or ve 用户体验 可视化操作 DAG编码 编码打包上传 xml配置 可用性 去中心化HA 通过DB支持HA 通过DB支持HA 通过DB支持HA Master/Worker均支 Scheduler和Worker均 仅支持Executor水平 支持ozzie server水平 扩展性 持水平扩展 支持水平扩展 扩展 扩展j 支持暂停/恢复/重跑/ 支持暂停/恢复/重跑等 辅助功能 仅支持重跑操作 仅支持重跑操作 补数操作 操作 实现语言 Java Python Java Java
7 .社区 引用star-history.com 引用ossinsight.io
8 .03 社区贡献 交互式开发系统整合
9 .大数据开发流程优化 传统数据开发流程 未来数据开发流程 本地IDE编码打包 交互式开发验证 上传到大数据集群测试 交互式开发系统自动对接 调度/实时计算系统 在调度/实时计算系统操作上线 运维监控 运维监控
10 .Apache Zeppelin https://github.com/apache/dolphinscheduler/issues/9814
11 .Jupyter https://github.com/apache/dolphinscheduler/issues/9816
12 .一体化数据开发入口 引自elyra.readthedocs.io
13 .03 社区贡献 项目质量
14 . Metrics Notebook Related Notebook Related Resource Management Tasks Workflows (Python Dependencies) ds.task.timeout.coun ds.workflow.instance.runnin ds.worker.resource.download.co t g unt ds.task.finish.count ds.workflow.instance.finish.c ds.worker.resource.download.du ds.task.success.count ount ration ds.task.failure.count ds.workflow.instance.success. ds.worker.resource.download.siz ds.task.running count e ………………… ds.workflow.instance.failure. ………………… count ………………… https://github.com/apache/dolphinscheduler/issues/9324 https://dolphinscheduler.apache.org/en-us/docs/3.1.2/guide/metrics/metrics
15 .Tests && Coverage https://github.com/apache/dolphinscheduler/issues/12301 https://github.com/apache/dolphinscheduler/issues/11405 https://github.com/apache/dolphinscheduler/issues/11385
16 .测试覆盖率提升 引自github.com 引自app.codecov.io
17 .03 社区贡献 云原生
18 . 云原生相关优化 01 部署架构 02 资源日志存储 03 多租 https://github.com/apache/dolphinscheduler/issues/13316 https://github.com/apache/dolphinscheduler/issues/13017
19 .04 商业化实践
20 .EMR Workflow = Managed Workflow for Apache DolphinScheduler 01 基于Apache DolphinScheduler实现的云原生多租大数据调度服务 02 随开随用,无需额外购买额外云资源 03 无缝对接EMR各主要计算/存储引擎 04 无缝对接EMR Notebook,整合交互式开发到生产调度
21 .EMR Workflow Demo
22 .EMR Workflow邀测邀请 如有兴趣请加钉钉/微信: abzymeinsjtu
23 .