- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
DeepRec:大规模稀疏模型训练/预测引擎-丁辰
作为阿里巴巴集团统一的稀疏模型业务场景的训练/预测引擎,支持了淘宝搜索、猜你喜欢、定向广告、直通车广告等核心业务,支撑着千亿特征、万亿样本超大规模的稀疏训练。积累了核心的稀疏场景的功能及性能优化。针对稀疏模型在分布式、图优化、算子、Runtime等方面进行了深度的性能优化,同时提供了稀疏场景下特有的Embedding相关的功能。
丁辰 ,阿里云计算平台事业部PAI技术专家。长期从事机器学习平台/深度学习框架的研发工作,负责大规模稀疏模型的训练和预测,长期支持阿里搜索、推荐、广告等核心业务,负责DeepRec开发及设计工作。
展开查看详情
1 .DeepRec: 大规模稀疏模型训练/预测引擎 丁 辰 阿里云计算平台事业部PAI
2 . 01 DeepRec 背景 Contents 02 DeepRec 功能 目录 03 DeepRec 开源 04 DeepRec on BigDL
3 .01 DeepRec 背景
4 . 为什么需要稀疏模型引擎 提升模型效果 提升模型迭代效率 具有稀疏模型特点的部署及线上服务 稀疏功能 训练性能 部署及Serving
5 . 什么是DeepRec 稀疏功能 训练性能 Serving 部署 & ODL 动态弹性特征 分布式训练框架 SessionGroup 增量模型导出及加载 特征淘汰及准入 Runtime优化 分布式Serving Online Deep Learning 基于特征频率的动态弹性维度 图优化 多级混合存储 自适应动态弹性特征 算子优化 Runtime优化 A Recommendation engine based on TensorFlow
6 . DeepRec业务场景 A Recommendation engine based on TensorFlow 推荐 搜索 广告 猜你喜欢 主搜索 直通车、定向
7 .02 DeepRec 功能介绍
8 .动态弹性特征 特征准入: 特征淘汰: 1. 基于Counter的特征准入 1. 基于GlobalStep的特征淘汰 2. 基于BloomFilter的特征准入 2. 基于L2 Weight的特征淘汰
9 . 基于特征频率的动态弹性维度(FAE) 低频特征使用更低维度 高频特征使用更高维度 如何映射特征频率和特征Dimension之间关系
10 . Adaptive EmbeddingVariable 低频特征在有冲突的Variable 高频特征在无冲突的EmbeddingVariable
11 . Multi-Hash Variable 采用互补的hash function (A/B) 以确保可以为每个特征生成唯一的embedding vector Compositional Embeddings Using Complementary Partitions for Memory-Efficent Recommendation
12 . 异步训练框架StarServer 通信协议优化、用户态零拷贝数据传输 Tens of Parameter Servers 基于图拓扑序的图Fusion Run To Completion and Lockless Graph Execution Thousands of Workers
13 . 同步训练框架HybridBackend 数据并行与模型并行混合分布式训练 面向混合硬件的训练编排 针对高维稀疏特征大批量访问优化
14 .Runtime优化-PRMalloc
15 . Runtime优化-Executor优化 多种调度策略
16 . Serving优化-SessionGroup *CPU: Intel® Xeon® Scalable Processors
17 . 图优化-结构化特征 降低存储开销 降低User网络计算开销
18 .图优化-SmartStage
19 . Embedding多级混合存储 *CPU: Intel® Xeon® Scalable Processors *PMEM: Intel® Optane™ persistent memory
20 . Embedding多级混合存储 • 支持超大模型的训练和预测 • 更少的内存/显存,降低训练/预测的成本 • 业务提升:从ps-serving架构,转向使用 多级混合存储架构,Latency优化80ms- >25ms *PMEM: Intel® Optane™ persistent memory
21 .AdamAsync Optimizer
22 .模型增量导出及加载
23 .Online Deep Learning
24 .03 DeepRec 开源
25 . Release DeepRec2204 Embedding Support hybrid storage of EmbeddingVariable (DRAM, PMEM, LevelDB) Support memory-continuous storage of multi-slot EmbeddingVariable. Distributed Training Integrate SOK in DeepRec. Graph Optimization Auto Graph Fusion, support float32/int32/int64 type for select fusion. Runtime Optimization GPUTensorPoolAllocator, which reduce GPU memory usage and improve performance. PMEMAllocator, support allocation in persistent memory.
26 . Release DeepRec2204 Optimizer Optimize AdamOptimizer performance. Op & Hardware Acceleration Change fused MatMul layout type and number thread for small size inputs. IO & Dataset KafkaGroupIODataset, support consumer rebalance. Model Save/Restore Support dump incremental graph info. Serving Add serving module (ODL processor), which support Online Deep Learning (ODL).
27 . Roadmap (Next Release) Embedding 分布式 多级混合存储HBM支持 半同步分布式训练 EVAllocator SOK G3和EV融合 Runtime Serving Runtime调度框架及调度策略 支持SessionGroup 内存优化提升可用性 支持Executor调度策略可配
28 .04 DeepRec on BigDL
29 .BigDL Overview Seamlessly scale end-to-end, distributed AI applications Domain PPML Chronos Friesian Privacy Preserving Machine Specific Toolkits Learning Time Series Recommendation System End-to-End Orca DLlib Nano Distributed AI E2E Distributed AI Pipeline Distributed Deep Learning Integration and Abstraction of (TensorFlow / PyTorch / Pipelines Library for Apache Spark IA-specific Accelerations OpenVINO / Ray) Laptop K8s Apache Hadoop/Spark Ray Cloud https://github.com/intel-analytics/BigDL/