- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
5.周捷光-DolphinScheduler调度机器学习场景任务
展开查看详情
1 .
2 .Apache DolphinScheduler 调度机器学习场景任务 周捷光-白鲸开源高级算法工程师
3 . MLOps DolphinScheduler 分享内容 DolphinScheduler ML Orchestration DolphinScheduler ML Roadmap
4 .MLOps
5 .MLOps MLOps 可理解为机器学习时代的DevOps。连接算法团队与上下游团队,建立标准化的模型生 产流程,使得企业组织能更好的利用机器学习能力来促进业务增长。 让AI多快好省落地
6 .MLOps 在实际生产中,ML代码可能只是整个系统的小部分代码,所需要的其他相关的元素是很庞大且 很复杂的。
7 .MLOps ML + Ops • Data Management • Continuous Integration(CI) • Modelling • Continuous Delivery(CD) • Deployment • Continuous Training(CT) • Monitoring • Continuous Monitoring(CM)
8 .DolphinScheduler
9 .DolphinScheduler Apache DolphinScheduler 是一个分布式去中心化,易扩展的可视化DAG工作流任务调度平台 。 8700+ Stars 398 Contributors
10 .DolphinScheduler Apache DolphinScheduler 是一个分布式去中心化,易扩展的可视化DAG工作流任务调度平台 。 高可靠性 插件丰富 多样性 场景丰富 • 去中心化 • 任务:40+ • WebUI • 工作流、任务状态 • 稳定可靠 • 数据源:11 • Open API • 依赖类型 • 原生 HA 队列 • 告警:10 • Python API • 参数传递 • 过载容错 • 注册中心:3 • YAML 文件 • 指标齐全
11 .DolphinScheduler 3.1.0 新特性 ML Orchestration 实时数据流支持 Python, YAML Support K8S Support • 打通数据调度+MLOps • Flink, Sparking streaming支 • 支持Python直接生成DAG • K8S Operator 持 • MLflow, SageMaker, DVC • 支持YAML 直接生成DAG • K8S Task • 数据流DAG支持 • Jupyter, PyTorch • 数据流管理 • OpenMLDB
12 .DolphinScheduler ML Orchestration
13 .DolphinScheduler ML Orchestration DolphinScheduler 在MLOps 领域,添加各种的机器学习相关的组件,让数据科学家和数据分 析师和也能十分轻松使用DolphinScheduer。 解决机器学习模型研发到上线的效率问题 解决机器学习平台与大数据平台之间的调度问题
14 .DolphinScheduler ML Orchestration DolphinScheduler 中的机器学习工作流 DolphinScheduler与SageMaker之间的机器学习工作流
15 .DolphinScheduler ML Orchestration DolphinScheduler ML Orchestration 提供MLOps中的编排能力,帮助用户高效、低成本打造 机器学习平台。 主要提供以下特性: • 编排用户已有的各类机器学习任务 • out-of-box编排主流MLOps项目 • 通过开源机器学习项目提供预置的算法能力 • 衔接大数据平台与机器学习平台之间的任务调度
16 .DolphinScheduler ML Orchestration DolphinScheduler 涵盖的机器学习工作流类型 Data Management Feature Store Model Training Deployment Model Management Shell, Python, Jupyter, Shell, Python, MLflow, DVC, SageMaker OpenMLDB, SageMaker MLflow, SageMaker MLflow, PyTorch, SageMaker SageMaker DolphinScheduler 支持编排的MLOps组件 组件 使用场景 调度执行模型训练,数据分析等Notebook Jupyter 将Jupyter Notebook加入到工作流中执行 运行自定义MLflow Project, 预置算法或者AutoML能力 MLflow 部署MLflow Tracking Servers中的模型 OpenMLDB 保持离线与在线一致性的特征提取与计算 上传和下载特定版本的数据 DVC 基于Git仓库的大文件数据版本管理 调度执行SageMaker Pipeline SageMaker 连接SageMaker与上游和下游其他任务 在DolphinScheduler中调度执行机器学习类型任务 PyTorch 运行基于Git的机器学习项目
17 .DolphinScheduler ML Orchestration 三种机器学习工作流定义方式 Web UI Python YAML
18 .DolphinScheduler ML Orchestration 三种机器学习工作流定义方式
19 .DolphinScheduler ML Roadmap
20 .DolphinScheduler ML Roadmap 已支持 将支持 2022-05 2022-09
21 .