猎聘AutoML与推荐系统

展开查看详情

1.AutoML与推荐系统 AutoML and Recommender Systems 猎聘大数据研究院 单艺

2. 议题 1 2 3 4 PART ONE PART TWO PART THREE PART FOUR 缘起 超参数优化 自动化建模 试验和展望

3.PART ONE 缘起

4. 预测建模过程 1 目标定义 5 模型应用 2 数据收集 4 模型优化 3 特征设计 4 算法选择

5.Modeling Is Hard

6.做一个数据科学家是什么体验?

7.PART TWO 超参数优化

8. 模型/算法超参数 Item CF 相似度算法、相似度因子权重… Matrix Factorization 隐因子数、正则化权重… Neural Networks 层数、每层神经元数、dropout比例 GBDT 提升次数、树的最大深度、学习率、样本采样率、特征采样率… Random Forest 树的数量、树的最大深度、样本采样率、特征采样率… Logistic Regression 正则化权重、正则化方法 Gradient Descent 学习率、批次大小、迭代次数…

9. 超参数的影响 Neural Networks with Different Learning Rates on MINST

10. 超参数的影响 Neural Networks with Different Learning Rates on MINST

11. 超参数优化问题 • 目标:找到在验证数据集上效果最好的超参数 • 挑战: • 参数空间巨大 • 效用函数是一个黑盒子 • 训练和评估成本高 • 问题: • 如何聪明地搜索最佳超参数

12.手工调参

13.寻找最佳超参数

14.自动超参数优化的主要方法 • 贝叶斯优化: • 高斯过程回归 • SMAC • TPE • 谱模型 • Bandit算法 • Hyperband算法

15. 贝叶斯优化 1. 假设目标函数符合某个先验分布 2. 初始随机试验 3. 根据观测结果得到后验分布 4. 利用后验分布选取下一个试验点 • 使用获取函数决定新的试验点

16. 高斯过程回归 A Gaussian process is a collection of random variables, any subset of which is jointly normally distributed. Gaussian process regression: assume form of mean and covariance among data functional form

17.高斯过程回归

18.用GPR优化超参数

19. 贝叶斯优化软件包 1. Spearmint 2. Yelp MOE -> SigOpt 3. Hyperopt 4. Scikit-optimize 5. SMAC

20. PART THREE 自动化预测建模

21. 预测建模流程 1 目标定义 5 模型应用 2 数据收集 • 特征组合 • 超参数优化 4 模型优化 3 特征设计 • 特征选择 • 模型集成 • 降维 4 算法选择

22. 通用自动化预测建模系统 训练数据 特征组合 Truncated SVD 特征打分和筛选 (规则、树) 验证数据 } Model 1 聚类 { Model N 模型

23.Network Architecture Search

24.PART FOUR 试验和展望

25.试验对比

26.算法吃人?

27.人机协作

28.THANK YOU 猎聘大数据研究院