SVM原理与应用

下载 19

献良

发布于

4222

人观看

#信息技术

SVM背景介绍，什么是线性分类和非线性分类，松弛变量，多元分类，具体应用和相关的工具包。

展开查看详情

1 .SVM 原理与应用 HITSCIR-TM Group zkli - 李泽魁

2 .大纲背景线性分类非线性分类松弛变量多元分类应用工具包 2

3 .大纲背景线性分类非线性分类松弛变量多元分类应用工具包 3

4 .SVM 背景支持向量机 support vector machine SVM 4

5 .为什么要用 SVM( 个人观点 ) 分类效果好上手快 N 种语言的 N 个 Toolkit 理论基础完备妇孺皆知的好模型找工作需要它 ( 利益相关：面试狗一只 ) 应用与原理 5

6 .SVM 发展历史重要理论基础 1 60 年代， Vapnik 和 Chervonenkis 提出 VC 维理论重要理论基础 2 1982 年， Vapnik 提出结构风险最小化理论支持向量机 (Support Vector Machine) 是 Cortes 和 Vapnik 于 1995 年首先提出的它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中 6

7 .作者之一简介 Vapnik 《Statistical Learning Theory 》作者书中详细的论证了统计机器学习之所以区别于传统机器学习的本质，就在于统计机器学习能够精确的给出学习效果，能够解答需要的样本数等等一系列问题。 7

8 .SVM 理论基础 1 （比较八股）统计学习理论的 VC 维理论 (Statistical Learning Theory 或 SLT ) 是研究有限样本情况下机器学习规律的理论 ( Vapnik-Chervonenkis Dimension) 反映了函数集的学习能力， VC 维越大则学习机器越复杂 8

9 .SVM 理论基础 2 （比较八股）结构风险最小化机器学习本质上就是一种对问题真实模型的逼近。这个与问题真实解之间的误差，就叫做风险。结构化风险 = 经验风险 + 置信风险经验风险 = 分类器在给定样本上的误差置信风险 = 分类器在未知文本上分类的结果的误差，代表了我们在多大程度上可以信任分类器在未知文本上分类的结果。（无法准确估值，给出估计的区间） 9

10 .SVM 理论基础 2 （比较八股）结构化风险 = 经验风险 + 置信风险置信风险因素：样本数量，给定的样本数量越大，学习结果越有可能正确，此时置信风险越小；分类函数的 VC 维，显然 VC 维越大，推广能力越差，置信风险会变大。泛化误差界的公式* R(w)≤ R emp (w)+ Ф( n/h) 公式中 R(w) 就是真实风险， Remp (w) 就是经验风险， Ф(n/h) 就是置信风险。统计学习的目标从经验风险最小化变为了寻求经验风险与置信风险的和最小，即结构风险最小。 10

11 .SVM 理论基础（小结）统计学习理论的 VC 维理论 SVM 关注的是 VC 维结构风险最小化 R(w )≤ R emp (w)+ Ф( n/h) 11

12 .SVM 特性小样本与问题的复杂度比起来， SVM 算法要求的样本数是相对比较少的非线性 SVM 擅长应付样本数据线性不可分的情况，主要通过松弛变量和核函数技术来实现高维模式识别例如文本的向量表示，几万维，反例 : KNN 12

13 .大纲背景线性分类非线性分类松弛变量多元分类应用工具包 13

14 .线性分类器问题的引入 X 和 O 是两类样本中间的直线就是一个分类函数，它可以将两类样本完全分开。 14

15 .线性函数？在一维空间里就是一个点在二维空间里就是一条直线在三维空间里就是一个平面 …… 如果不关注空间的维数，这种线性函数还有一个统一的名称 —— 超平面 (Hyper Plane) 15

16 .线性函数  分类问题例如我们有一个线性函数 g(x)= wx+b 我们可以取阈值为 0 ，这样当有一个样本 x i 需要判别的时候，我们就看 g(x i ) 的值。若 g(x i )>0 ，就判别为类别 O 若 g(x i )<0 ，则判别为类别 X Tips w 、 x 、 b 均可以是向量中间那条直线的表达式是 g(x)=0 ，即 wx+b =0 ，我们也把这个函数叫做分类面 16

17 .分类面的决定分离超平面不是唯一上面的 N 直线都可以对点正确分类分离超平面存在一个最好的 17

18 .分类面的“好坏”量化一个很直观的感受是，让“离直线最近的点，距离直线尽可能地远” 就是分割的间隙越大越好，把两个类别的点分得越开越好 18

19 .“分类间隔”的引入文本分类分类时样本格式 label （标示出这个样本属于哪个类别） feature （文本特征所组成的向量）假设 label=±1 ，我们就可以定义一个样本点到某个超平面的间隔为 ( 这是定义 ) δ i = y i ( wx i +b ) 19 ^

20 .分类间隔 δ i = y i ( wx i +b ) y i ( wx i +b ) 总大于 0 的，而且它的值等于 | wx i +b | 如果某个样本属于该类别的话， wx i +b >0 ，而 y i 也大于 0 反之， wx i +b <0 ，而 y i 也小于 0 现在把 w 和 b 进行一下归一化，即用 w/||w|| 和 b/||w|| 分别代替原来的 w 和 b ，那么间隔就可以写成 20 ^

21 .分类间隔  几何间隔解析几何中点 x i 到直线 g(x)=0 的距离公式推广一下，是到超平面 g(x)=0 的距离， g(x)=0 就是上节中提到的分类超平面 ||w|| 是什么符号？ ||w|| 叫做向量 w 的范数，向量长度其实指的是它的 2- 范数用归一化的 w 和 b 代替原值之后的间隔有一个专门的名称，叫做几何间隔 21

22 .量化问题之“支持向量” 被红色和蓝色的线圈出来的点就是所谓的支持向量 (support vector ) 22

23 .量化问题之“最大化间隔” Maximum Marginal 原则 Classifier Boundary 就是 f(x) ，红色和蓝色的线（ plus plane 与 minus plane ）就是 support vector 所在的面，红色、蓝色线之间的间隔就是我们要最大化的分类间的间隔。 23

24 .量化问题之“最大化间隔” Maximum Margin 原则几何间隔 24

25 .几何间隔的现实含义 H 是分类面，而 H 1 和 H 2 是平行于 H ，且过离 H 最近的两类样本的直线， H 1 与 H ， H 2 与 H 之间的距离就是几何间隔 25

26 .几何间隔的存在意义几何间隔与样本的误分次数间存在关系其中的 δ 是样本集合到分类面的间隔， R=max ||xi|| i =1,...,n ，即 R 是所有样本中向量长度最长的值（也就是说代表样本的分布有多么广）误分次数一定程度上代表分类器的误差。（证明略）误分次数的上界由几何间隔决定（样本已知的时候） 26

27 .Maximum Margin 为了使分类面更合适为了减少误分次数最大化几何间隔 27

28 .minimize ||w|| 是否让 W=0 ，目标函数就最小了呢？ = 。 = 式子有还有一些限制条件，完整的写下来，应该是这样的求最小值的问题就是一个优化问题，一个带约束的二次规划 (quadratic programming, QP) 问题，是一个凸问题凸二次规划区别于一般意义上的规划问题，它有解而且是全局最优的解，而且可以找到 28

29 .如何解二次规划问题等式约束，是求极值、拉格朗日转化等方法转化为无约束问题不等式约束的问题怎么办？方法一：用现成的 QP (Quadratic Programming) 优化包进行求解 ( 效率低 ) 方法二：求解与原问题等价的对偶问题 (dual problem) 得到原始问题的最优解 ( 更易求解、可以推广到核函数 ) 拉格朗日乘子法拉格朗日对偶性 KKT 理论支撑 29

34点赞

15收藏

19下载