您好、欢迎来到现金彩票网!
当前位置:秒速快3 > 数据偏斜 >

克服SVM噪声敏感性及如何利用SVM处理非平衡数据

发布时间:2019-06-11 23:59 来源:未知 编辑:admin

  这篇文章首先探讨了SVM为什么会对噪声敏感的问题,然后引出了解决办法——软间隔分类器,接着介绍了松弛变量和惩罚因子,并介绍了样本偏斜的解决办法,最后有一个总结。

  之前看周志华老师的《机器学习》里说SVM对噪声敏感,后来查了一些资料,然后有了自己的理解,在这里做一个总结。

  SVM的基本形态是一个硬间隔分类器,它要求所有样本都满足硬间隔约束(即函数间隔要大于1),所以当数据集有噪声点时,SVM为了把噪声点也划分正确,超平面就会向另外一个类的样本靠拢,这就使得划分超平面的几何间距变小,降低模型的泛化性能。除此之外,当噪声点混入另外一个类时,对于硬间隔分类器而言,这就变成了一个线性不可分的问题,于是就使用核技巧,通过将样本映射到高维特征空间使得样本线性可分,这样得到一个复杂模型,并由此导致过拟合(原样本空间得到的划分超平面会是弯弯曲曲的,它确实可以把所有样本都划分正确,但得到的模型只对训练集有效)。

  为了解决上述问题,SVM通过引入松弛变量构造了软间隔分类器,它允许分类器对一些样本犯错,允许一些样本不满足硬间隔约束条件,这样做可以避免SVM分类器过拟合,于是也就避免了模型过于复杂,降低了模型对噪声点的敏感性,提升了模型的泛化性能。

  因为松弛变量是非负的,因此样本的函数间隔可以比1小。函数间隔比1小的样本被叫做离群点,我们放弃了对离群点的精确分类,这对我们的分类器来说是种损失。但是放弃这些点也带来了好处,那就是超平面不必向这些点的方向移动,因而可以得到更大的几何间隔(在低维空间看来,分类边界也更平滑)。显然我们必须权衡这种损失和好处。

  松弛变量表示样本离群的程度,松弛变量越大,离群越远,松弛变量为零,则样本没有离群。

  惩罚因子表示我们有多重视离群点带来的损失,当C取无穷大时,会迫使超平面将所有的样本都划分正确,这就退化成了硬间隔分类器。

  样本偏斜是指数据集中正负类样本数量不均,比如正类样本有10000个,负类样本只有100个,这就可能使得超平面被“推向”负类(因为负类数量少,分布得不够广),影响结果的准确性。

  可以通过为正负类样本设置不同的惩罚因子来解决样本偏斜的问题。具体做法是为负类设置大一点的惩罚因子,因为负类本来就少,不能再分错了,然后正负类的惩罚因子遵循一定的比例(如下文三种情况所述),具体值要通过实验确定。

  (1)首先,如果是因为采样得到的样本不够多样性或者数量不够而导致的样本偏斜(分布范围不均),可以通过衡量正负类分布的程度来确定惩罚因子的比例。比如计算它们在空间中占据的体积,例如给负类找一个超球(就是高维空间里的球),它要包含所有负类的样本,再给正类找一个,比较两个球的半径,就可以大致确定分布的情况。显然半径大的分布比较广,就给小一点的惩罚因子。

  (2)但是,如果是因为正负类本身性质所导致的分布范围不均,此时即使超球半径差异很大,也不应该赋予两个类别不同的惩罚因子。例如文本分类中,某些话题涉及的面很窄,例如计算机类的文章就明显不如文化类的文章那么“天马行空”,这就会导致它们的超球半径差异很大,但这是由它们自身性质决定的,与样本多样性和数量多少无关,换言之,这个时候不存在样本偏斜的问题。

  (3)但是,实际中我们不会这么做,因为实在太麻烦了,当正负类数量不均时,比如正负类数量比为100:1,则惩罚因子的比例直接就定为1:100(libsvm中就是这么做的)。

  若令惩罚因子C为无穷大,则SVM退化为硬间隔分类器,此时使用线性核只能处理线性可分的样本(因为对于线性不可分的样本,无法找到一个超平面可以正确划分所有样本,于是模型参数不存在可行解);

  若令惩罚因子C为适当值,则使用线性核的SVM可以处理线性或近线性的样本(这是因为此时允许分类器在某些样本上出错,所以对于近线性的样本,可以找到一个超平面将大部分样本正确划分)。

  应聘数据挖掘工程师或机器学习工程师,面试官经常会考量面试者对SVM的理解。以下是我自己在准备面试过程中,基于个人理解,总结的一些SVM面试常考问题(想到会再更新),如有错漏,请批评指正。(大神请忽视)...博文来自:yanhx1204的专栏

  今天看西瓜书,然后看到习题关于“SVM对噪声敏感原因”,看了几个答案,感觉不够系统,说的太细了,反而有种不太全面的感觉。我想了一下,大约应该是会过拟合。因为SVM约束条件就是对于每个样本要正确分类,至...博文来自:z2539329562的博客

  SVM的目的是求出与支持向量有最大化距离的直线,以每个样本为圆心,该距离为半径做圆,可以近似认为圆内的点与该样本属于相同分类。如果出现了噪声,那么这个噪声所带来的错误分类也将最大化,所以SVM对噪声是...博文来自:chenyuanyaun的博客

  机器学习(周志华)参考答案第六章支持向量机机器学习(周志华西瓜书)参考答案总目录总的来...博文来自:我的博客

  【对爱敏感的人在感情上都很专一,看看你的他是否也中了这四点呢!】前阵子在跟朋友的聚会中,提到一句算新的词,你是高敏感的族群吗?那时候听到感到疑惑高敏感?那是指什么,新的学说?新的心理理论?还是新的人格...博文来自:爆爆珠

  对于SVM中遇到的非均衡数据集,可以采用以下策略:假设有4类样本,比如,第一类有500个,第二类有300个,第三类有600个,第四类有200个,那么,可以通过SVM的class_weight...博文来自:葫芦与瓢的博客

  关于不平衡问题:   当需要关注特定的某一类或特定的样本时,可以使用class_weight和sample_weight参数进行设置:  1.SVC、NuSVC有可选参数class_weight,以字...博文来自:每天进步一点点!

  概论传统的样本一般是从精心设计的实验装置中筛选出来的,这些样本往往满足一定条件。而我们获得的网络样本、金融样本以及生物样本中,这些观测样本往往具有涌现性,且与传统意义的样本并不相同,大量的样本中往往有...博文来自:Zephyrs Blog

  在支持向量机中,CCC是负责惩罚错误分类数据的超参数。解决数据类别不平衡的一个方法就是使用基于类别增加权重的CCC值Cj=C∗wjCj=C∗wjC_j=C*w_j其中,CCC是误分类的惩罚项,wjwj...博文来自:CodenameNC的博客

  如果你研究过一点机器学习和数据科学,你肯定遇到过不平衡的类分布(imbalancedclassdistribution)。这种情况是指:属于某一类别的观测样本的数量显著少于其它类别。这个问题在异常...博文来自:bbbeoy的专栏

  之前以为SVM很强大很神秘,自己了解了之后发现原理并不难,不过,“大师的功力在于将idea使用数学定义它,使用物理描述它”,这一点在看SVM的数学部分的时候已经深刻的体会到了,最小二乘法、梯度下降法、...博文来自:mghhz816210的专栏

  SVM的目的是求出与支持向量有最大化距离的直线,以每个样本为圆心,该距离为半径做圆,可以近似认为圆内的点与该样本属于相同分类。如果出现了噪声,那么这个噪声所带来的错误分类也将最大化,所以SVM对噪声是...博文来自:lovemooner的博客

  机器学习面试题汇总(支持向量机相关)支持向量机面试题,SVM面试题1.SVM的原理是什么?2.SVM推导3.简述SVM软间隔4.如何使用SMO最优化方法求解SVM模型?5.SMO算法中对于每次选中的α...博文来自:Potato_45的博客

  两种方法都是常见的分类算法,从目标函数来看,区别在于逻辑回归采用的是logisticalloss,svm采用的是hingeloss。这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类...博文来自:zhangxueyang1的博客

  在各种对SVM的讲解中,有一个知识点都讲得不够透彻:SVM的目标函数是最大化支持向量的几何间隔,但怎么最后就变成了最小化法向量(斜率)了呢?       可以想像一下,一个超平面,斜率和截距以相同的倍...博文来自:良言的博客

  SVM和logistic回归都是比较常用的算法,而这两个算法有什么异同点呢。下面是自己的总结,当然也是自己的一些见解。相...博文来自:的博客

  上一篇SVM之核函数介绍了通过计算样本核函数,实际上将样本映射到高维空间以望使其线性可分的方法,一定程度上解决了线性不可分问题,但并不彻底。现在,换个思路,对于线性不可分问题不再千方百计的变换数据使其...

  关于SVM的推导网上有一大堆的资料可以参考,在这里就不在叙述了,重点讲解SVM的其他问题SVM有如下主要几个特点:(1)非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射...

  SVM浅析按照自己的理解讲解SVM,可能有理解不对或者表达不精准的地方,欢迎交流、沟通~1、背景:期望找到一个分离超平面,该平面和样本点尽可能远,即建立一个具有最大间隔距离的最优分离超平面。符号:如果...

  1.目标   SVM是一个二类分类器,它的目标是找到一个超平面,使用两类数据离超平面越远越好,从而对新的数据分类更准确,即此分类器更加健壮。   支持向量(SupportVetor):就是离分隔超平面...

  SVM入门(一)至(三)Refresh按:之前的文章重新汇编一下,修改了一些错误和不当的说法,一起复习,然后继续SVM之旅.(一)SVM的简介支持向量机(SupportVector Machine)是...

  看了该作者的文章,瞬间膜拜了!讲得太好了!转自:(一)SVM的简介支持向量机(Support...

  通过支持向量机实现对噪声的分类,提升语音增强以及VAD的效果。当样例是以输入/输出对的形式给出时,学习方法称为有监督学习。当样例仅以输入的形式给出,而没有输出结果时候,成为无监督学习,包括密度估计、分...

  样本失衡会对SVM的影响假设正类样本远多于负类1、线性可分的情况假设真实数据集如下: 由于负类样本量太少,可能会出现下面这种情况使得分隔超平面偏向负类。严格意义上,这种样本不平衡不是因为样本数量的问题...

  过拟合(Overfitting)表现为在训练数据上模型的预测很准,在未知数据上预测很差。过拟合主要是因为训练数据中的异常点,这些点严重偏离正常位置。我们知道,决定SVM最优分类超平面的恰恰是那些占少数...

  使用LIBSVM对原始文本语料进行文本分类(一)——语料介绍及文本预处理第一次正式的使用CSDN博客来记录一些自己学习的历程,在计算机这个行业,有太多的东西需要学,也常常感觉到时间不够用,而有些Cod...

  解决这一问题的基本思路是让正负样本在训练过程中拥有相同的话语权,比如利用采样与加权等方法。为了方便起见,我们把数据集中样本较多的那一类称为“大众类”,样本较少的那一类称为“小众类”。解决方式分为:.一...

  开篇为什么把这两个机器模型放在一起呢,主要是因为它们经常会在面试中同时出现,这边把它们放在一起,解析一下它们之间的联系和区别。我们先看一下问题经典算法问题LR与SVM的相同和不同?讲一下其中的LR、S...

  支持向量所在的超平面为何是theta^t*x=-1和theta^t*x=-1(有时也写为theta^t*x+b=0的形式,但是把x0总设为1,b也可以作为theta的一部分)李航的《统计学习方法》里有...

  OpenCV之ml 模块. 机器学习:支持向量机(SVM)介绍 支持向量机对线性不可分数据的处理

  LinearSVM和 LR 有什么异同以及分别在什么情况下使用?02-16

  Intellij IDEA 如何通过数据库表生成带注解的实体类图文详细教程06-08阅读数 2万+

  jquery/js实现一个网页同时调用多个倒计时(最新的)11-25阅读数 54万+

  XCc0900720130:[reply]Dby_freedom[/reply] 非常感谢博主提供思路~

  Dby_freedom:[reply]XCc0900720130[/reply] 首先先提出的是这篇论文发表的时候,embedding + NN 还基本没用,所以 GBDT + LR 可以看做是 LR 的升级版,用于替代一部分 LR 的手动特征工程;基于这个时代背景,我个人认为处理时候应该是分类情况的,对于曝光充分的特征,如果特征种类较少,可以采用直接 one-hot 编码后放入 GBDT 进行特征编码;如果特征类别太多,则采用先 hash 到低纬空间,再进行 one-hot 编码(其降维可能产生的 hash 碰撞所带来的误差在工程上可以忽略的);最后再回到现在,GBDT 依旧可以用来对类别特征进行特征提取,其更擅长提取出高阶组合特征,但这部分已经可以用 embedding + NN 来取代,其次,ID 类特征目前的主流处理方式是直接 one-hot + embedding,其相比于 hash 进一步引入了语意信息,更有利表达特征信息。

  XCc0900720130:博主对这篇经典CTR论文总结的很好,但我有一个疑惑,“ID类树用于发现曝光充分的ID对应有区分性的特征、特征组合”,请问这个怎么实现的呢?

  Dby_freedom:[reply]Dby_freedom[/reply] 抱歉,没看清你的意思。这里总结一下好了,首先,train error, dev error, test error 都是指的是用当前训练的模型对train set, dev set, test set 进行预测,然后统计出错的占比;你说的“那时候模型还没建立”是错误的,毕竟当你确定了网络架构、超参及初始化参数之后,该神经网络就已经是一个模型了,只是没有经过完全训练而已,但是可以用来做预测,而训练的基础也正是通过这些出错的样本点进行梯度回传更新参数;其次,我上一个回答中所指的 loss 为当前训练目标函数预测值与真实值之间的误差。

http://istighcomputing.com/shujupianxie/290.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有