您好、欢迎来到现金彩票网!
当前位置:秒速快3 > 数据偏斜 >

SVM入门(九)松弛变量(续)

发布时间:2019-07-28 03:07 来源:未知 编辑:admin

  接下来要说的东西其实不是松弛变量本身,但由于是为了使用松弛变量才引入的,因此放在这里也算合适,那就是惩罚因子C。回头看一眼引入了松弛变量以后的优化问题:

  注意其中C的位置,也可以回想一下C所起的作用(表征你有多么重视离群点,C越大越重视,越不想丢掉它们)。这个式子是以前做SVM的人写的,大家也就这么用,但没有任何规定说必须对所有的松弛变量都使用同一个惩罚因子,我们完全可以给每一个离群点都使用不同的C,这时就意味着你对每个样本的重视程度都不一样,有些样本丢了也就丢了,错了也就错了,这些就给一个比较小的C;而有些样本很重要,决不能分类错误(比如中央下达的文件啥的,笑),就给一个很大的C。

  当然实际使用的时候并没有这么极端,但一种很常用的变形可以用来解决分类问题中样本的偏斜问题。

  先来说说样本的偏斜问题,也叫数据集偏斜(unbalanced),它指的是参与分类的两个类别(也可以指多个类别)样本数量差异很大。比如说正类有10,000个样本,而负类只给了100个,这会引起的问题显而易见,可以看看下面的图:

  方形的点是负类。H,H1,H2是根据给的样本算出来的分类面,由于负类的样本很少很少,所以有一些本来是负类的样本点没有提供,比如图中两个灰色的方形点,如果这两个点有提供的话,那算出来的分类面应该是H,H2和H1,他们显然和之前的结果有出入,实际上负类给的样本点越多,就越容易出现在灰色点附近的点,我们算出的结果也就越接近于真实的分类面。但现在由于偏斜的现象存在,使得数量多的正类可以把分类面向负类的方向推,因而影响了结果的准确性。

  对付数据集偏斜问题的方法之一就是在惩罚因子上作文章,想必大家也猜到了,那就是给样本数量少的负类更大的惩罚因子,表示我们重视这部分样本(本来数量就少,再抛弃一些,那人家负类还活不活了),因此我们的目标函数中因松弛变量而损失的部分就变成了:

  其中i=1p都是正样本,j=p+1p+q都是负样本。libSVM这个算法包在解决偏斜问题的时候用的就是这种方法。

  那C+和C-怎么确定呢?它们的大小是试出来的(参数调优),但是他们的比例可以有些方法来确定。咱们先假定说C+是5这么大,那确定C-的一个很直观的方法就是使用两类样本数的比来算,对应到刚才举的例子,C-就可以定为500这么大(因为10,000:100=100:1嘛)。

  但是这样并不够好,回看刚才的图,你会发现正类之所以可以欺负负类,其实并不是因为负类样本少,真实的原因是负类的样本分布的不够广(没扩充到负类本应该有的区域)。说一个具体点的例子,现在想给政治类和体育类的文章做分类,政治类文章很多,而体育类只提供了几篇关于篮球的文章,这时分类会明显偏向于政治类,如果要给体育类文章增加样本,但增加的样本仍然全都是关于篮球的(也就是说,没有足球,排球,赛车,游泳等等),那结果会怎样呢?虽然体育类文章在数量上可以达到与政治类一样多,但过于集中了,结果仍会偏向于政治类!所以给C+和C-确定比例更好的方法应该是衡量他们分布的程度。比如可以算算他们在空间中占据了多大的体积,例如给负类找一个超球——就是高维空间里的球啦——它可以包含所有负类的样本,再给正类找一个,比比两个球的半径,就可以大致确定分布的情况。显然半径大的分布就比较广,就给小一点的惩罚因子。

  但是这样还不够好,因为有的类别样本确实很集中,这不是提供的样本数量多少的问题,这是类别本身的特征(就是某些话题涉及的面很窄,例如计算机类的文章就明显不如文化类的文章那么天马行空),这个时候即便超球的半径差异很大,也不应该赋予两个类别不同的惩罚因子。

  Jasper评论于 2009-03-24 15:32#re: SVM入门(九)松弛变量(续)[未登录]也赞!!!!!!!!!!!的确是通俗易懂,我看书看得头晕脑涨的不知道它说什么,看这个很容易就明白了。谢谢楼主,另楼主可否推荐基本通俗易懂的书籍呢?但不知下一篇什么时候还没有出来。

  评论于 2009-03-25 11:36#re: SVM入门(九)松弛变量(续)通俗易懂,期待下一篇评论于 2009-03-26 11:22#re: SVM入门(九)松弛变量(续)博主的文章写的非常好,深入浅出的。看书不明白的地方都明白了。多谢

  评论于 2009-03-27 23:04#re: SVM入门(九)松弛变量(续)感谢博主幽默的文笔,深入浅出的学术.读来令我受益非浅!评论于 2009-05-24 18:54#re: SVM入门(九)松弛变量(续)能否请博主谈谈对核函数选择方面的思考,谢谢!评论于 2009-05-26 16:07#re: SVM入门(九)松弛变量(续)非常感谢评论于 2009-07-28 17:29#re: SVM入门(九)松弛变量(续)膜拜了文章后 发现受益匪浅 写得真不错 啊哈哈评论于 2009-08-03 14:49#re: SVM入门(九)松弛变量(续)楼主是个很有耐心、思维很缜密的学者,娓娓道来,如行云流水般轻盈空灵,构思衔首带尾,浑然天成,妙不可言!评论于 2009-09-14 18:17#re: SVM入门(九)松弛变量(续)楼主对SVM的精妙解说使我想到了武当学院张三丰张教授独创的太极拳招式,张教授把“用意不用力”这一武学要义演绎得淋漓尽致,与楼主的叙述风格有异曲同工之妙——从舒松柔和处入手,曲径通幽,直入臻境,无比酣畅......评论于 2009-09-14 20:57#re: SVM入门(九)松弛变量(续)我又忍不住还要夸赞楼主了,读他写的东西像读古龙的《陆小凤传奇》,妙趣横生,意味无穷,使人如痴如醉,忘乎所以。评论于 2009-09-14 21:06#re: SVM入门(九)松弛变量(续)此文着实相当好,不可不赞~~评论于 2009-10-16 20:08#re: SVM入门(九)松弛变量(续)不得不顶的文章,犀利评论于 2009-12-02 10:24#re: SVM入门(九)松弛变量(续)很不错评论于 2010-03-15 10:30#re: SVM入门(九)松弛变量(续)继续顶!评论于 2010-08-15 21:20#re: SVM入门(九)松弛变量(续)博主现在不写了么?评论于 2010-09-08 16:16#re: SVM入门(九)松弛变量(续)[未登录]看你的文章让我又有了很久没有了的废寝忘食,乐在其中的感觉,非常感谢。评论于 2011-03-17 17:35#re: SVM入门(九)松弛变量(续)我对楼主的敬仰,有如滔滔江水,连绵不绝评论于 2011-08-02 18:20#re: SVM入门(九)松弛变量(续)好文章啊,让人茅塞顿开评论于 2011-09-15 16:53#为什么有时候会有两个松弛变量?为什么有时候会有两个松弛变量?评论于 2012-01-05 15:53#re: SVM入门(九)松弛变量(续)看楼主的文章不仅很浅显易懂,而且楼主很有幽默细胞,处处表现你的机智幽默,佩服~评论于 2013-11-19 21:51#re: SVM入门(九)松弛变量(续)讲解深入浅出,很好很好。顺便问一句,LZ是妹子么?

http://istighcomputing.com/shujupianxie/590.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有