加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

技能分享:数据不服衡题目

发布时间:2018-09-12 14:05:53 所属栏目:教程 来源:千锋大数据开发学院
导读:9月15日技能沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖切磋精准运维! 在学术研究与解说中,许多算法都有一个根基假设,那就是数据漫衍是匀称的。当我们把这些算法直策应用于现实数据时,大大都环境下都无法取得抱负的功效。由于现实数据每每漫衍得
副问题[/!--empirenews.page--] 9月15日技能沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖切磋精准运维!

在学术研究与解说中,许多算法都有一个根基假设,那就是数据漫衍是匀称的。当我们把这些算法直策应用于现实数据时,大大都环境下都无法取得抱负的功效。由于现实数据每每漫衍得很不匀称,城市存在“长尾征象”,也就是数据不服衡”。

技能分享:数据不服衡题目

以下几种要领是针对数据不服衡题目所做的处理赏罚,详细包罗:

  1. smote采样
  2. adasyn采样
  3. 欠采样
  4. 一分类
  5. 改造的adaboost要领

一、smote采样

SMOTE全称是Synthetic Minority Oversampling Technique即合成少数类过采样技能,它是基于随机过采样算法的一种改造方案,因为随机过采样采纳简朴复制样本的计策来增进少数类样本,这样轻易发生模子过拟合的题目,纵然得模子进修到的信息过于出格(Specific)而不足泛化(General),SMOTE算法的根基头脑是对少数类样本举办说明并按照少数类样本人工合成新样本添加到数据齐集,算法流程如下。

  1. 对付少数类中每一个样本x,以欧氏间隔为尺度计较它到少数类样本齐集全部样本的间隔,获得其k近邻。
  2. 按照样本不服衡比例配置一个采样比例以确定采样倍率N,对付每一个少数类样本x,从其k近邻中随机选择多少个样本,假设选择的近邻为xn。
  3. 对付每一个随机选出的近邻xn,别离与原样本凭证如下的公式构建新的样本 xnew=x+rand(0,1)∗|x−xn|

部门代码如下:

  1. df=get_data()  
  2. x, y = load_creditcard_data(df)  
  3. X_resampled_smote, y_resampled_smote = SMOTE().fit_sample(x, y) # print(y_resampled_smote)  
  4. X_train, X_test, y_train, y_test = train_test_split(X_resampled_smote, y_resampled_smote, test_size=0.3,random_state=0) 

二、adasyn采样

本文先容的是 ADASYN: 自顺应综合过采样要领。

算法步调如下:

(1)计较不服衡度

记少数类样本为ms,大都类为ml,则不服衡度为 d = ms / ml,则d∈(0,1]。(作者在这里右边用了闭区间,我认为应该用开区间,如果d = 1,则少数类与大都类样本数目同等,此时数据应该均衡的)

(2)计较必要合成的样本数目

G = (ml - ms)* b,b∈[0,1],当b = 1时,即G便是少数类和大都类的差值,此时合成数据后的大都类个数和少数类数据正好均衡

(3)对每个属于少数类的样本用欧式间隔计较k个邻人,为k个邻人中属于大都类的样本数量,记比例r为r = / k,r∈[0,1]

(4)在(3)中获得每一个少数类样本的 ri ,

用 计较每个少数类样本的周围大都类的环境

(5)对每个少数类样本计较合成样本的数量 (6)在每个待合成的少数类样本周围k个邻人中选择1个少数类样本,按照下列等式举办合成

一再合成直到满意必要步调(5)合成的数量为止。

部门代码如下:

  1. df=get_data()  
  2. x, y = load_creditcard_data(df)  
  3. X_resampled_smote, y_resampled_smote = ADASYN().fit_sample(x, y) 

三、欠采样

以下两种要领都属于欠抽样,差异于直接欠抽样,他们将信息的丢失水平只管低落。两者的焦点头脑为:

1. EasyEnsemble 焦点头脑是:

  • 起首通过从大都类中独立随机抽取出多少子集
  • 将每个子集与少数类数据连系起来实习天生多个基分类器
  • 最终将这些基分类器组合形成一个集成进修体系

EasyEnsemble 算法被以为长短监视进修算法,因此它每次都独立操作可放回随机抽样机制来提取大都类样本

2. BalanceCascade 焦点头脑是:

  • 行使之前已形成的集因素类器来为下一次实习选择多类样本
  • 然后再举办欠抽样

四、一分类

对付正负样本极不服衡的场景,我们可以换一个完全差异的角度来对待题目:把它看做一分类(One Class Learning)或非常检测(Novelty Detection)题目。这类要领的重点不在于捕获类间的不同,而是为个中一类举办建模,经典的事变包罗One-class SVM等。

我们只对一类举办实习,模子的功效会聚积在某个范畴内,测试集举办测试,则模子的输出功效为1和-1两种,当落在这个区间,功效为1,不在这个区间,则功效为-1

部门代码如下:

  1. def MechanicalRupture_Model():  
  2. train = pd.read_excel(normal)  
  3. test = pd.read_excel(unnormal)  
  4. clf = svm.OneClassSVM(nu=0.1, kernel=rbf, gamma=0.1)  
  5. clf.fit(train)  
  6. y_pred_train = clf.predict(train)  
  7. y_pred_test = clf.predict(test) 

五、改造的adaboost要领

AdaCost算法修改了Adaboost算法的权重更新计策,其根基头脑是对付价钱高的误分类样本大大地进步其权重,而对付价钱高的正确分类样 本适内地低落其权重,使其权重低落相对较小。总体头脑是价钱高样本权重增进得大低落得慢。

详细adacost代码如下:

  1. #!/usr/bin/env python3# -*- coding:utf-8 -*-import numpy as npfrom numpy.core.umath_tests import inner1dfrom sklearn.ensemble import AdaBoostClassifierclass AdaCostClassifier(AdaBoostClassifier):#担任AdaBoostClassifier 
  2. def _boost_real(self, iboost, X, y, sample_weight, random_state):  
  3. implement a single boost using the SAMME.R real algorithm.  
  4. :param iboost:  
  5. :param X:  
  6. :param random_state:  
  7. :param y: 
  8.  :return:sample_weight,estimator_error  
  9. estimator = self._make_estimator(random_state=random_state)  
  10. estimator.fit(X, y, sample_weight=sample_weight)  
  11. y_predict_proba = estimator.predict_proba(X) if iboost == 0:  
  12. self.classes_ = getattr(estimator, 'classes_', None)  
  13. self.n_classes_ = len(self.classes_)  
  14. y_predict = self.classes_.take(np.argmax(y_predict_proba, axis=1),axis=0)  
  15. incorrect = y_predict != y  
  16. estimator_error = np.mean(np.average(incorrect, weights=sample_weight, axis=0)) if estimator_error = 0: return sample_weight, 1., 0.  
  17. n_classes = self.n_classes_ 
  18.  classes = self.classes_  
  19. y_codes = np.array([-1. / (n_classes - 1), 1.])  
  20. y_coding = y_codes.take(classes == y[:, np.newaxis])  
  21. proba = y_predict_proba # alias for readability  
  22. proba[proba np.finfo(proba.dtype).eps] = np.finfo(proba.dtype).eps  
  23. estimator_weight = (-1. * self.learning_rate * (((n_classes - 1.) / n_classes) *  
  24. inner1d(y_coding, np.log(y_predict_proba)))) # 样本更新的公式,只必要改写这里  
  25. if not iboost == self.n_estimators - 1:  
  26. sample_weight *= np.exp(estimator_weight *  
  27. ((sample_weight 0) |  
  28. (estimator_weight 0)) *  
  29. self._beta(y, y_predict)) # 在原本的基本上乘以self._beta(y, y_predict),即价钱调解函数  
  30. return sample_weight, 1., estimator_error def _beta(self, y, y_hat):  
  31. adjust cost function weight  
  32. :param y:  
  33. :param y_hat:  
  34. :return:res  
  35. res = [] for i in zip(y, y_hat): if i[0] == i[1]:  
  36. res.append(1) # 正确分类,系数保持稳固,按原本的比例镌汰  
  37. elif i[0] == 0 and i[1] == 1: # elif i[0] == 1 and i[1] == -1:  
  38. res.append(1) # 将负样本误判为正样本价钱应该更大一些,比原本的增进比例要高  
  39. elif i[0] == 1 and i[1] == 0: # elif i[0] == -1 and i[1] == 1:  
  40. res.append(1.25) # 将正列判为负列,价钱稳固,按原本的比例增进  
  41. else: print(i[0], i[1]) return np.array(res) 

总结:

个中

smote采样 、adasyn采样、欠采样、一分类是针对数据集做出处理赏罚。

改造的adaboost要领是对模子要领举办的改造。

详细回收哪种方法,必要团结详细环境。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读