机器学习简介

用粗浅的语言介绍什么是机器学习,从问题/方法/模式,讲到数据,模型,预测,非常科普的介绍机器学习是什么,能解决什么问题,以及用什么方法来解决,这些方法难点和近些年的发展。
展开查看详情

1. 简介 机器器学习 苑明理理 2016年年11⽉月

2. 内容 • 引:数据传奇 • 起:基本概念与技术 • 承:⼈人⼯工神经⽹网络 • 转:对玩具模型的理理论探讨 • 合:组合、增强、对抗 • 尾:⼀一个观察和猜测

3. 引⼦子 数据传奇

4.

5. 中世纪的 第⾕谷·布拉赫 地⼼心说宇宙观 彗星观测⼿手稿

6.第⾕谷在汶岛建⽴立的两个 当时的观测仪器器 天⽂文台之⼀一

7.Prosthaphaeresis:当时最新先进的算法 第⾕谷搜集了了⼤大量量的数据,并采⽤用了了当时最先进的计算⽅方法和星体 运⾏行行理理论,来整理理这些数据,制定星表 第⾕谷采⽤用 Prosthaphaeresis 来快速查表计算乘法,25年年后的 1614 年年,纳⽪皮尔发明对数后,该⽅方法逐渐被抛弃。 求 105 和 720 的乘积 1. 缩⼩小: 0.105 和 0.720 2. 求反余弦: cos(84°) = 0.105, cos(44°) = 0.720 3. 求⻆角的和差:84 + 44 = 128, 84 − 44 = 40 4. 查表求余弦平均:½[cos(128°) + cos(40°)] = ½[−0.616 + 0.766] = 0.075 5. 放⼤大:75,000. 6. 验证:75,600.

8.约翰内斯·开普勒勒 1596年年著作《宇宙的奧秘》中的宇宙观 优美但和精确的观测不不符合

9.1601年年第⾕谷去世,作为助⼿手开普勒勒拿到第⾕谷搜集的⼤大量量的数据 1609年年⾏行行星运动的开普勒勒第⼀一、⼆二定律律发表 1618年年⾏行行星运动的开普勒勒第三定律律发表 1643年年天⽂文学家发现开普勒勒定律律可以解释⽊木星卫星的运动 1687年年⽜牛顿的《⾃自然哲学的数学原理理》发表,完整表述了了万有引⼒力力理理论

10.传统学科的范式 ⼴广义相对论 原理理 ⽜牛顿万有引⼒力力 动⼒力力学 开普勒勒⾏行行星运动定律律 定律律 哥⽩白尼体系 托勒勒密体系 模型 观测资料料 数据

11.• 数据科学带来范式的转变? • “假设导向”向“数据导向”转变 • 端到端的机器器学习,不不考虑机理理

12. 起 基本概念和技术

13. 具体的⼀一些问题 • 找出垃圾邮件 • 快速判断邮箱地址是否重复 • 汉语句句⼦子分词 • 推荐类似于这篇⽂文章的其他⽂文章 • 寻找天⽓气变化曲线的简短表示 • 寻找降⾬雨的模式并作预报

14. 问题的类型 • 聚类 • 表示 • 检索 • 分类 • 降维表示 • 重复、相似 • 回归 • 稀疏表示 • 异常 有监督、⽆无监督、半监督

15.

16. 问题 模型 ⽅方法 模式 数据 预测、判断

17. 数据流 清洗 特征⼯工程? 原始数据 数据 特征 特征⼯工程? 学习过程 预测过程 模型 输出

18.数据清洗不不简单

19.特征 来源:肖达博⼠士讲义

20.致敬 AlphaGo 15刺刺,再次震惊世界!好俗的⼀一 ⼿手,⼏几乎所有的围棋⽼老老师都会告 诉你,这步棋不不好,如果你下了了, ⾸首先你会受到⽼老老师的批评,可是 AlphaGo永远不不会在乎别⼈人的评 价。 在提⾼高围棋⽔水平的路路上,我们都 需要经历学习的过程,学习定式、 布局、棋形、⽅方向等等,当我们 掌握了了这些知识,我们还需要学 会灵活运⽤用这些知识,可是要想 达到宗师级的⽔水平,这还不不够! 因为在学习的过程中,学习到的 东⻄西也同时束缚了了我们的创造⼒力力, 所以真正的挑战是摆脱所有之前 知识的束缚,将⾃自⼰己的思想融⼊入 到棋⾥里里,摆脱所谓的 “对”与 “ 错” 的观念,从⽽而寻找围棋本质的东 ⻄西,即⼦子与⼦子之间的联系与作⽤用。 或许这样才会达到我们所说的⽆无 招胜有招的境界吧。

21. 过拟合、泛化能⼒力力 • ⼈人类的⼩小孩⻅见到⼏几只猫就认识了了 猫这种动物 • Google Brain 认识猫需要成千上 万的例例⼦子 • 同 AlphaGo 的对弈显示⼈人类策略略 过拟合 • 有迹象显示⼀一些“俗⼿手”在后来的 对弈中发挥了了效果 • ⼈人类通过概念、推理理来思考有很 强的泛化能⼒力力 • 但在计算⼒力力有限的情况下,⼈人类 ⽣生成的有效实例例少,容易易过拟合

22.线性模型 http://cs.adelaide.edu.au/~chhshen/teaching/ML_SVR.pdf

23.概率图模型 https://people.cs.umass.edu/~mccallum/papers/crf-tutorial.pdf

24.神经⽹网络模型

25. 承 ⼈人⼯工神经⽹网络

26.神经⽹网络动物园 问题:为什什么那么多种类? 传统的特征⼯工程变成了了⽹网络结构⼯工程? 能⾃自动⽣生成吗? http://www.asimovinstitute.org/neural-network-zoo/

27.MLP

28.ReLU

29. Dropout • 计算下层时依照概率只有⼀一部分起作⽤用 • 抽样的思想 • 可以⽤用来对抗过拟合