样本不平衡问题如何解决别再闹了

1. 什么是样本不平衡问题?

所谓的类别不平衡问题指的是数据集中各个类别的样本数量极不均衡。以二分类问题为例,假设正类的样本数量远大于负类的样本数量,通常情况下把样本类别比例超过4:1(也有说3:1)的数据就可以称为不平衡数据。样本不平衡实际上是一种非常常见的现象。比如:在欺诈交易检测,欺诈交易的订单应该是占总交易数量极少部分;工厂中产品质量检测问题,合格产品的数量应该是远大于不合格产品的;信用卡的征信问题中往往就是正样本居多。

2. 样本不平衡会对我们模型的训练带来哪些影响呢?

简单来讲,样本不平衡会使得我们的分类模型存在很严重的偏向性,但是从一些常用的指标上又无法看出来。举一个极端一点的例子,如果正负样本比例为100:1,那岂不是把全部样本都判定为正样本就有99%+的分类准确率了。从测试结果上来看,就表现为有太多的False Positive。在来看一个“恐怖”的例子,直观的感受一下样本不平衡问题:

你根据1000个正样本和1000个负样本正确训练出了一个准确率90%召回率90%的分类器,且通过实验验证没有欠采样过采样的问题哦完美的样本,完美的模型,破费,你心里暗自得意。然后模型上线,正式预测每天的未知样本。开始一切都很美好,准确率召回率都很好。直到有一天,数据发生了一点变化,还是原来的数据类型和特征,只是每天新数据中正负样本变成了100个正样本,10000个负样本。注意,先前准确率90%的另一种表达是负样本有10%的概率被误检为正样本。好了,模型不变,现在误检的负样本数是100000.1=1000个,正样本被检出1000.9(召回)=90个,好了,这个时候召回率不变仍为90%,但是新的准确率=90/(1000+90)=8.26% 。震惊吗!?恐怖吗!?结论: 同一个模型仅仅是改变了验证集的正负样本比例,模型已经从可用退化成不可用了!!样本不平衡问题可怕就可怕在这,往往你的模型参数,训练,数据,特征都是对的!能做的都做了,但你的准确率就是上不去!!绝望吧。。。。。。

在机器学习中,处理样本不平衡问题,主要有2中策略:从数据角度和从算法层面。从数据角度出发,通常的方法包括了:

扩大数据集

数据集重采样

可以使用一些策略该减轻数据的不平衡程度。该策略便是采样(sampling),主要有两种采样方法来降低数据的不平衡性。

对小类的数据样本进行采样来增加小类的数据样本个数,即过采样(over-sampling ,采样的个数大于该类样本的个数)。

对大类的数据样本进行采样来减少该类数据样本的个数,即欠采样(under-sampling,采样的次数少于该类样本的个素)。

人工产生数据样本

一种简单的人工样本数据产生的方法便是,对该类下的所有样本每个属性特征的取值空间中随机选取一个组成新的样本,即属性值随机采样。你可以使用基于经验对属性值进行随机采样而构造新的人工样本,或者使用类似朴素贝叶斯方法假设各属性之间互相独立进行采样,这样便可得到更多的数据,但是无法保证属性之前的线性关系(如果本身是存在的)。

有一个系统的构造人工数据样本的方法SMOTE(Synthetic Minority Over-sampling Technique)。SMOTE是一种过采样算法,它构造新的小类样本而不是产生小类中已有的样本的副本,即该算法构造的数据是新样本,原数据集中不存在的。该基于距离度量选择小类别下两个或者更多的相似样本,然后选择其中一个样本,并随机选择一定数量的邻居样本对选择的那个样本的一个属性增加噪声,每次处理一个属性。这样就构造了更多的新生数据。具体可以参见原始论文。 这里有SMOTE算法的多个不同语言的实现版本:

基于异常检测的方式

从算法角度出发,通常的方法包括了:

尝试不同的分类算法

对小类错分进行加权惩罚

从重构分类器的角度出发

仔细对你的问题进行分析与挖掘,是否可以将你的问题划分成多个更小的问题,而这些小问题更容易解决。你可以从这篇文章In classification, how do you handle an unbalanced training set?中得到灵感。例如:

4. 在深度学习中,有哪些解决样本不平衡的方法?

深度学习同样属于机器学习中的一种典型方法,所以在机器学习中适用的方法在深度学习中同样适用。比如说:扩大数据集、类别均衡采样、人工产生数据样本,添加少类别样本的来loss惩罚项等。

对于数据的方法,这里我们重点介绍:类别均衡采样把样本按类别分组,每个类别生成一个样本列表,训练过程中先随机选择1个或几个类别,然后从各个类别所对应的样本列表里选择随机样本。这样可以保证每个类别参与训练的机会比较均等。上述方法需要对于样本类别较多任务首先定义与类别相等数量的列表,对于海量类别任务如ImageNet数据集等此举极其繁琐。海康威视研究院提出类别重组的平衡方法。类别重组法只需要原始图像列表即可完成同样的均匀采样任务,步骤如下:\1. 首先按照类别顺序对原始样本进行排序,之后计算每个类别的样本数目,并记录样本最多那个类的样本数目。之后,根据这个最多样本数对每类样本产生一个随机排列的列表, 然后用此列表中的随机数对各自类别的样本数取余,得到对应的索引值。接着,根据索引从该类的图像中提取图像,生成该类的图像随机列表。之后将所有类的随机列表连在一起随机打乱次序,即可得到最终的图像列表,可以发现最终列表中每类样本数目均等。根据此列表训练模型,在训练时列表遍历完毕,则重头再做一遍上述操作即可进行第二轮训练,如此往复。 类别重组法的优点在于,只需要原始图像列表,且所有操作均在内存中在线完成,易于实现。

从图像和文本数据的角度出发,我们来看一下有哪些方法?

对于图像数据,解决样本不平衡问题,在深度学习中会用到的方法包括了:类别均衡采样(上已经描述),可以用来解决分类问题。另外,在笔者看来还值得介绍的方法包括了:OHEM和focal loss。

OHEM

OHEM(online hard example miniing)算法的核心思想是根据输入样本的损失进行筛选,筛选出hard example,表示对分类和检测影响较大的样本,然后将筛选得到的这些样本应用在随机梯度下降中训练。在实际操作中是将原来的一个ROI Network扩充为两个ROI Network,这两个ROI Network共享参数。其中前面一个ROI Network只有前向操作,主要用于计算损失;后面一个ROI Network包括前向和后向操作,以hard example作为输入,计算损失并回传梯度。作者将该算法应用在Fast RCNN中,网络结构还是采用VGG16和VGG_CNN_M_1024,数据集主要采用VOC2007,VOC2012和COCO数据集。算法优点:1、对于数据的类别不平衡问题不需要采用设置正负样本比例的方式来解决,这种在线选择方式针对性更强。2、随着数据集的增大,算法的提升更加明显(作者是通过在COCO数据集上做实验和VOC数据集做对比,因为前者的数据集更大,而且提升更明显,所以有这个结论)。

算法的测试结果:在pascal VOC2007上的mAP为78.9%,在pascal VOC2012上的mAP为76.3%。注意,这些结果的得到包含了一些小tricks,比如multi-scale test(测试时候采用多尺度输入),bounding box的不断迭代回归。

Focal LossFocal loss主要是为了解决one-stage目标检测中正负样本比例严重失衡的问题。主旨是:ssd按照ohem选出了loss较大的,但忽略了那些loss较小的easy的负样本,虽然这些easy负样本loss很小,但数量多,加起来的loss较大,对最终loss有一定贡献。作者想把这些loss较小的也融入到loss计算中。但如果直接计算所有的loss,loss会被那些easy的负样本主导,因为数量太多,加起来的loss就大了。也就是说,作者是想融入一些easy example,希望他们能有助于训练,但又不希望他们主导loss。这个时候就用了公式进行衰减那些easy example,让他们对loss做贡献,但又不至于主导loss,并且通过balanced crossentropy平衡类别。

OHEM是只取3:1的负样本去计算loss,之外的负样本权重置零,而focal loss取了所有负样本,根据难度给了不同的权重。focal loss相比OHEM的提升点在于,3:1的比例比较粗暴,那些有些难度的负样本可能游离于3:1之外。之前实验中曾经调整过OHEM这个比例,发现是有好处的,现在可以试试focal loss了。

对于文本数据而言,怎样解决样本不平衡问题?

这里推荐阅读知乎相关问题(我就不胡扯了~~~手动捂脸):严重数据倾斜文本分类,比如正反比1:20~100,适合什么model,查准一般要做到多少可以上线?比如新闻的广告色情低俗识别,这些小类别在实际分布中一定是占比极小1:20甚至不到百分之一。传统的词表权重组合规则,只能预防一小部分(召回会非常低,但是准确率不会特别低)。而模型如果训练时候用1:1配平(个人觉得不能超过1:3,也做过大量实验),即使使用了加权惩罚,或者类似smote或者组合的上下采样方法,模型在1:1测试时即使达到90%的查准,放到1:20的环境查准也会大幅度降低到30%(试过xgboost,libsvm,libliner,fasttext等,近乎线性成比例降低,cnn目前效果和前面类似,加了earlystop,dropout最合适的还是原始论文参数)。像这种正反比严重数据倾斜的分类识别问题,有没有更合适的方法呢?还是我忽略了哪些地方?

5. 从模型评价指标的角度,重新审视训练好的模型性能。

从前面的分析可以看出,准确度这个评价指标在类别不均衡的分类任务中并不能work,甚至进行误导(分类器不work,但是从这个指标来看,该分类器有着很好的评价指标得分)。因此在类别不均衡分类任务中,需要使用更有说服力的评价指标来对分类器进行评价。这里推荐指标:

混淆矩阵(Confusion Matrix):使用一个表格对分类器所预测的类别与其真实的类别的样本统计,分别为:TP、FN、FP与TN。

精确度(Precision)

召回率(Recall)

F1得分(F1 Score):精确度与找召回率的加权平均。

Kappa (Cohen kappa)

ROC曲线(ROC Curves):见Assessing and Comparing Classifier Performance with ROC Curves

THE END
0.平衡是什么意思|平衡的解释是什么什么是平衡引证解释: ⒈ 谓衡器两端承受的重量相等。 引《汉书·律历志上》:“準正,则平衡而钧权矣。”唐韩偓《漫作》诗之二:“千钧将一羽,轻重在平衡。”明马愈《马氏日抄·水火称毒》:“称则以人、石平衡,视其轻重,虚则人低石举,实则石重人轻。” ⒉ 谓两物齐平如衡。 引《礼记·曲礼下》:“执jvzquC41o0nbqA;0eqs0er~waukbtlm1'G;&DB*D5'K9'J6'C3
1.什么是化学平衡状态化学反应讲究化学平衡状态,是高中的重点知识,那么你了解什么是化学平衡状态嘛?。今天小编在这给大家整理了什么是化学平衡状态相关资料,接下来随着小编一起来看看吧! ▼▼目录▼▼ 化学平衡状态 判断化学平衡状态的标志口诀 判断化学平衡状态例子 化学平衡状态 jvzquC41yy}/z~jzkng/exr1zwkykok1icuzkqzczwk0e==:576/j}rn
2.什么是生态平衡?什么是生态平衡? 一、生态平衡的现象 在生态系统中,生物有生有死,有迁入也有迁出,因此,各种生物的数量、比例不断地发生着变化。当生态系统发展到一定阶段,各种生物之间通过相互的种种作用,在各自的数量和比例上达到一个相对稳定的平衡状态时,就叫做生态平衡。 jvzquC41yy}/fr~khctxgw3eqo5kkjtcp1hbprfplkvynslkcubp86567792A9;63=:5;3jvo
3.什么是画面平衡?|油画基础知识什么是画面平衡?| 油画基础知识 在一幅油画作品中,作品的布局平衡如排兵布阵,必须讲求整体大局观念,统一把握油画作品的整体布局。 油画作品的布局能否平衡,是整个油画绘画体系的关键所在,是整个油画作画过程的首要前提和基础。 德加的一张作品,画家采用竖式布局,把焦点的人物推到画面的右上方位置上,从平面角度分析,jvzquC41crvbv}3u|pkxu7hqo1p{Cyu1hkrfu8x|zy5Og€x14282394491<42:950jznn
4.数据结构本文详细介绍了平衡二叉树和哈夫曼树的概念、原理及其应用场景。平衡二叉树能够确保二叉搜索树在插入或删除节点后的高效性能;哈夫曼树则是用于数据压缩的一种特殊二叉树,能够实现高效的编码和解码。 一、平衡二叉树 1.1 什么是平衡二叉树? 规定在插入和删除二叉树结点时,要保证任意结点的左、右子树高度之差的绝对值jvzquC41dnuh0lxfp0tfv8}v3;?83:4ctvodnn4fgvgjn|4334=69B:2
5.在夫妻关系中,平衡指的是什么?如何达到平衡?在夫妻关系中,平衡指的是什么?如何达到平衡? 通常我们讲的平衡主要是指施与受的平衡,一段关系里,双方的付出和收获都要基本上达到一个相对平衡的状态。这样的话,一段关系就会顺畅而又流动的往前继续延伸。比如说,对方给你50%的好,那你增加一点,55%。他再60%,你在65%,他在70%……这是一个非常和谐而充满爱意jvzquC41o0iiww~w{kyigwl0eqs0oru1vqvje86995:21
6.专业设备的最爱平衡接口特点原理简介耳机新闻什么是平衡接口 简单的来说,平衡接口一般最常见的是XLR(一般采用三芯卡农插头)和TRS(采用6.22MM接口)两种,而相比传统的非平衡接口比如RCA莲花来说,最大的差别在于平衡接口每个声道有三条线传输,而非平衡只有两条线。 常见平衡信号接法 但需要注意的是,平衡接口可用来连接平衡的信号,也可用来连接非平衡的信号,而非jvzquC41jggerqtpg0€pn7hqo0io1<;;15<:3<;;0jznn
7.美元、美债、美股三者有什么样的平衡关系?一、美元、美债、美股当当前市场出现的格局是强美元、较高的美债收益率(10年期美债再次接近3%的心理预期)、以及不断接近或创出新高的美股(主要以科技股领涨,苹果市值破万亿美元,纳斯达克创新高)。 可从理论上看这个三角平衡是一定会打破的,强美元是由于美联储的加息缩表预期,以及美国强劲经济与他国不确定性的鲜明反差对比。假设美元持续当jvzquC41zwkrk~3eqo599:9595:8:8633:<36<6
8.解析:奥斯卡短片《平衡》(平衡)影评最终,人类必将生活在地狱般的二维世界……所谓二维世界什么样子,就像片尾。非黑即白,是与非对与错,要么对要么错,没有其他人站在自己的位置发表自己的观点和态度,这其实就打乱了一个多维空间下的平衡……女:哦明白了,当最终出现了绝对的二维的平衡,人类社会也就和地狱没什么两样了……是啊,你看片中那三个人,jvzquC41oq|jg7iqwdgo0lto1tkwkn|1;7<62>=1
9.四轮定位不要轻易做,别被修理工忽悠了!新浪汽车动平衡与四轮定位都是保证车辆安全性、稳定性及车辆耐用性的重要因素,但本质上是有区别的。 什么是动平衡? 动平衡是通过矫正车轮(轮胎+轮毂)的配重平衡,从而使车辆轮胎一直处于同心运动。 什么时候做动平衡? 一般情况下,只要更换或维修过轮胎系统(轮胎或轮毂)后,都要做动平衡,而且有的个别车辆,因为使用时间过长,jvzquC41cwzp0|npc0ipo7hp1uksxrhg1{532:;/243148igvcom/rkzp|goj9:;;7940|mvon