加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据嗨客 | 第6期:不服衡数据处理赏罚

发布时间:2021-03-05 07:39:10 所属栏目:大数据 来源:网络整理
导读:http://mp.weixin.qq.com/s?__biz=MzAwMzIxMjIyMg==mid=2651005812idx=1sn=b9819f04cb2ee9af21f4011d34013824scene=0 写的挺好: 常用的分类算法一样平常假设差异类的比例是平衡的,实际糊口中常常碰着不服衡的数据集,好比告白点击猜测(点击转化率一样平常都很小)


http://mp.weixin.qq.com/s?__biz=MzAwMzIxMjIyMg==&mid=2651005812&idx=1&sn=b9819f04cb2ee9af21f4011d34013824&scene=0

写的挺好:



常用的分类算法一样平常假设差异类的比例是平衡的,实际糊口中常常碰着不服衡的数据集,好比告白点击猜测(点击转化率一样平常都很小)、商品保举(保举的商品被购置的比例很低)、名誉卡诓骗检测等等。

对付不服衡数据集,一样平常的分类算法都倾向于将样本分别到大都类,表此刻模子整体的精确率很高。

但对付极不平衡的分类题目,好比仅有1%的人是暴徒,99%的人是大好人,最简朴的分类模子就是将全部人都分别为大好人,模子都能获得99%的精确率,显然这样的模子并没有提供任何的信息。

在种别不服衡的环境下,对模子行使F值可能AUC值是更好的选择。

处理赏罚不服衡数据,可以从两方面思量:一是改变数据漫衍,从数据层面使得种别更为均衡;

二是改变分类算法,在传统分类算法的基本上对差异种别采纳差异的加权方法,使得模子更垂青少数类。

本部门对数据层面的一些要领做一个先容,改变数据漫衍的要领首要是重采样:

  • 欠采样:镌汰大都类样本的数目

  • 过采样:增进少数类样本的数目

  • 综合采样:将过采样和欠采样团结


1 欠采样

随机欠采样

镌汰大都类样本数目最简朴的要领即是随机剔除大都类样本,可以事先配置大都类与少数类最终的数目比例ratio,在保存少数类样本稳固的环境下,按照ratio随机选择大都类样本。

  • 利益:操纵简朴,只依靠于样天职布,不依靠于任何间隔信息,属于非开导式要领。

  • 弱点:会丢失一部门大都类样本的信息,无法充实操作已有信息。


Tomek links要领

起首来看一些界说。假设样本点

起首来看一些界说。

假设样本点xi和xj属于差异的种别,d(xi,xj)暗示两个样本点之间的间隔。

称(xi,xj)为一个Tomek link对,假如不存在第三个样本点xl使得d(xl,xi)<d(xi,xj)可能d(xl,xj)<d(xi,xj)创立。


轻易看出,假如两个样本点为Tomek link对,则个中某个样本为噪声(偏离正常漫衍太多)可能两个样本都在两类的界线上。

下图是对Tomek link对的直观表明(个中加号为少数类,减号为大都类):A、B、C中的样本在两类的界线上,D、E中的大都类样本均为噪声。

数据嗨客 | 第6期:不服衡数据处理赏罚


Tomek link对一样平常有两种用途:

  • 欠采样:将Tomek link对中属于大都类的样本剔除。

  • 数据洗濯:将Tomek link对中的两个样本都剔除。


NearMiss要领

NearMiss要领是操作间隔远近剔除大都类样本的一类要领,现实操纵中也是借助kNN,总结起来有以下几类:

  • NearMiss-1:在大都类样本中选择与最近的3个少数类样本的均匀间隔最小的样本。

  • NearMiss-2:在大都类样本中选择与最远的3个少数类样本的均匀间隔最小的样本。

  • NearMiss-3:对付每个少数类样本,选择离它最近的给定命量的大都类样本。

NearMiss-1和NearMiss-2要领的描写仅有一字之差,但其寄义是完全差异的:NearMiss-1思量的是与最近的3个少数类样本的均匀间隔,是局部的;NearMiss-2思量的是与最远的3个少数类样本的均匀间隔,是全局的。

NearMiss-1要领获得的大都类样天职布也是“不平衡”的,它倾向于在较量齐集的少数类四面找到更多的大都类样本,而在孤独的(可能说是离群的)少数类四面找到更少的大都类样本,缘故起因是NearMiss-1要领思量的局部性子僻静均间隔。

NearMiss-3要领例会使得每一个少数类样本四面都有足够多的大都类样本,显然这会使得模子的准确度高、召回率低。

论文中有对这几种要领的较量,获得的结论是NearMiss-2的结果最好,不外这也是必要综合思量数据集和采样比例的差异造成的影响。


One-Sided Selection

One-Sided Selection操作从上图获得的开导式设法,个中五角星暗示少数类样本,圆形暗示大都类样本,四种差异颜色的圆形代表四种差异范例的大都类样本:

赤色:属于大都类中的噪声(noise),它们都各自紧贴着某一个少数类样本。

蓝色:属于界线样本,此类样本很轻易被错分。

绿色:属于多余的(redundant)样本,由于在实习模子的时辰,此类样本没有提供特另外有效信息,其种别信息可以很轻易地通过其他样本信息获得。此类冗余的样本会进步分类的价钱,使得界线曲线向右上方移动。

黄色:属于安详(safe)样本,对付分类模子有着重要的浸染。

One-Sided Selection算法的目标是剔除大都类样本中噪声(赤色)、界线样本(蓝色)和多余样本(绿色),其算法流程如下(S为原始实习样本荟萃):

初始化荟萃CC,CC应该包罗全部的少数类样本和随机选择的一个大都类样本。

荟萃C实习一个1-NN分类器(即kNN中选择近邻数为1),并用这个分类器对S中的样本举办分类,将错分的大都类样本并入荟萃C。

对荟萃C行使Tomek links要领剔除大都类样本,获得最终的实习样本荟萃T。

One-Sided Selection算法中行使Tomek links剔除大都类样本中的噪声和界线样本,未被1-NN分类器错分的样本则被视为多余样本,最终获得一个种别漫衍更为均衡的样本荟萃。


2 过采样

随机过采样

与欠采样对应,增进少数类样本数目最简朴的要领即是随机复制少数类样本,可以事先配置大都类与少数类最终的数目比例ratio,在保存大都类样本稳固的环境下,按照ratio随机复制少数类样本。

在行使的进程中为了担保全部的少数类样本信息城市被包括,可以先完全复制一份全量的少数类样本,再随机复制少数类样本使得数目比例满意给定的ratio。

  • 利益:操纵简朴,只依靠于样天职布,不依靠于任何间隔信息,属于非开导式要领。

  • 弱点:一再样本过多,轻易造因素类器的过拟合。


SMOTE

SMOTE全称为Synthetic Minority Over-sampling Technique,首要头脑来历于手写字辨认:对付手写字的图片而言,旋转、扭曲等操纵是不会改变原始类此外(要解除翻转和180度大局限旋转这类的操纵,由于会使得“9”和“6”的种别产生变革),因而可以发生更多的样本。

SMOTE的首要头脑也是通过在一些位置临近的少数类样本中天生新样本到达均衡类此外目标,因为不是简朴地复制少数类样本,因此可以在必然水平上停止分类器的太过拟合。详细如下图:

数据嗨客 | 第6期:不服衡数据处理赏罚



其算法流程如下:

  1. 配置向上采样的倍率为N,即对每个少数类样本都必要发生对应的N个少数类新样本。

  2. 对少数类中的每一个样本x,搜刮获得其k(凡是取5)个少数类最近邻样本,并从中随机选择N个样本,记为y1,y2,…,yN(也许有一再值)。

  3. 结构新的少数类样本rj=x+rand(0,1)?(yj?x),个中rand(0,1)暗示区间(0,1)内的随机数。

Borderline SMOTE

原始的SMOTE算法对全部的少数类样本都是等量齐观的,但现实建模进程中发明那些处于界线位置的样本更轻易被错分,因此操作界线位置的样本信息发生新样本可以给模子带来更大的晋升。Borderline SMOTE即是将原始SMOTE算法和界线信息团结的算法。它有两个版本:Borderline SMOTE-1和Borderline SMOTE-2。

Borderline SMOTE-1算法流程:

  1. 记整个实习荟萃为T,少数类样本荟萃为P,大都类样本荟萃为N。对P中的每一个样本xi,在整个实习荟萃T中搜刮获得其最近的m个样本,记个中少数类样本数目为mi。

数据嗨客 | 第6期:不服衡数据处理赏罚


3. 对DANGER中的每一个样本点,回收平凡的SMOTE算法天生新的少数类样本。

Borderline SMOTE-2和Borderline SMOTE-1是很相同的,区别是在获得DANGER荟萃之后,对付DANGER中的每一个样本点xi:


  1. Borderline SMOTE-1:从少数类样本荟萃P中获得k个最近邻样本,再随机选择样本点和xi作随机的线性插值发生新的少数类样本。(和平凡SMOTE算法流程沟通)

  2. Borderline SMOTE-2:从少数类样本荟萃P和大都类样本荟萃N中别离获得k个最近邻样本Pk和Nk。设定一个比例α,在Pk中选出α比例的样本点和xi作随机的线性插值发生新的少数类样本,要领同Borderline SMOTE-1;在Nk中选出1?α比例的样本点和xi作随机的线性插值发生新的少数类样本,此处的随机数范畴选择的是(0,0.5),纵然得发生的新的样本点更接近少数类样本。


下图可以辅佐我们直观领略Borderline SMOTE的根基设法。思量最近的m=5个样本:

  • 对付A而言,最近的5个样本均属于大都类样本,以为A为噪声点,在其四面发生少数类样本会使得噪声的影响更大

  • 对付C而言,最近的5个样本中有3个属于少数类样本,2个属于大都类样本,此类样本是不轻易被错分的,以为C为安详点

  • 对付B而言,最近的5个样本中有2个属于少数类样本,3个属于大都类样本,此类样本轻易被错分,以为B处于少数类的界线上,插手伤害集

  • 最终只会对B这类的样本点做SMOTE操纵

数据嗨客 | 第6期:不服衡数据处理赏罚



3 综合采样

今朝为止我们行使的重采样要领险些都是只针对某一类样本:对大都类样本欠采样,对少数类样本过采样。也有人提出将欠采样和过采样综合的要领,办理样本种别漫衍不服衡和过拟合题目,本部门先容个中的两个例子:SMOTE+Tomek links和SMOTE+ENN。

SMOTE+Tomek links

SMOTE+Tomek links要领的算法流程很是简朴:

  1. 操作SMOTE要领天生新的少数类样本,获得扩充后的数据集 T T。

  2. 剔除T中的Tomek links对。


平凡SMOTE要领天生的少数类样本是通过线性差值获得的,在均衡种别漫衍的同时也扩张了少数类的样本空间,发生的题目是也许本来属于大都类样本的空间被少数类“入侵”(invade),轻易造成模子的过拟合。

Tomek links对探求的是那种噪声点可能界线点,可以很好地办理“入侵”的题目。

下图赤色加号为SMOTE发生的少数类样本,可以看到,赤色样本“入侵”到本来属于大都类样本的空间,这种噪声数据题目可以通过Tomek links很好地办理。

数据嗨客 | 第6期:不服衡数据处理赏罚



因为第一步SMOTE要领已经很好地均衡了种别漫衍,因此在行使Tomek links对的时辰思量剔除全部的Tomek links对(而不是只剔除Tomek links对中的大都类)。

SMOTE+ENN

SMOTE+ENN要领和SMOTE+Tomek links要领的设法和进程都是很相同的:

  1. 操作SMOTE要领天生新的少数类样本,获得扩充后的数据集T。

  2. 对T中的每一个样本行使kNN(一样平常k取3)要领猜测,若猜测功效和现实种别标签不符,则剔除该样本。

4 Informed Understanding

SMOTE算法是为了办理随机过采样轻易产生的模子过拟合题目,对应的也有一些要领办理随机欠采样造成的数据信息丢失题目。本部门的Informed Undersampling是对欠采样的增补,由于个中有一些集成(ensemble)的设法,因此单独先容。

EasyEnsemble

EasyEnsemble的设法很是简朴,假设少数类样本荟萃为P,大都类样本荟萃为N,样本量别离为|P|和|N|,其算法流程如下:

数据嗨客 | 第6期:不服衡数据处理赏罚


随机欠采样会导致信息缺失,EasyEnsemble的设法例是多次随机欠采样,尽也许全面地涵盖全部信息,算法特点则是操作boosting减小毛病(AdaBoost)、bagging减小方差(集因素类器)。现实应用的时辰也可以实行选用差异的分类器来进步分类的结果。


BalanceCascade

EasyEnsemble算法实习的子进程是独立的,BalanceCascade则一种级联算法,这种级联的头脑在图像辨认顶用途很是广。论文中具体描写了BalanceCascade的算法流程:

数据嗨客 | 第6期:不服衡数据处理赏罚


数据嗨客 | 第6期:不服衡数据处理赏罚


BalanceCascade算法获得的是一个级联分类器,将多少个强分类器由简朴到伟大分列,只有和少数类样本特性较量靠近的才有也许输入到后头的分类器,好比界线点,因此能更充实地操作大都类样本的信息,必然水平上办理随机欠采样的信息丢失题目。


参考文献

  1. https://github.com/fmfn/UnbalancedDataset

  2. Mani,I.,& Zhang,I. (2003,January). kNN approach to unbalanced data distributions: a case study involving information extraction. In Proceedings of workshop on learning from imbalanced datasets.

  3. Kubat,M.,& Matwin,S. (1997,July). Addressing the curse of imbalanced training sets: one-sided selection. In ICML (Vol. 97,pp. 179-186).

  4. Chawla,N. V.,Bowyer,K. W.,Hall,L. O.,& Kegelmeyer,W. P. (2002). SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research,321-357.

  5. Han,H.,Wang,W. Y.,& Mao,B. H. (2005). Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning. In Advances in intelligent computing (pp. 878-887). Springer Berlin Heidelberg.

  6. Batista,G. E.,Bazzan,A. L.,& Monard,M. C. (2003,December). Balancing Training Data for Automated Annotation of Keywords: a Case Study. In WOB (pp. 10-18).

  7. Batista,Prati,R. C.,M. C. (2004). A study of the behavior of several methods for balancing machine learning training data. ACM Sigkdd Explorations Newsletter,6(1),20-29.

  8. Liu,X. Y.,Wu,J.,& Zhou,Z. H. (2009). Exploratory undersampling for class-imbalance learning. Systems,Man,and Cybernetics,Part B: Cybernetics,IEEE Transactions on,39(2),539-550.

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读