打破机器学习中的小数据集诅咒
天生合成数据:尽量上采样或下采样有助于使数据均衡,可是一再的数据增进了太过拟合的机遇。办理此题目的另一种要领是在少数类数据的辅佐下天生合成数据。合成少数过采样技能(SMOTE)和改造过采样技能是发生合成数据的两种技能。简朴地说,合成少数过采样技能接管少数类数据点并建设新的数据点,这些数据点位于由直线毗连的恣意两个最近的数据点之间。为此,该算法计较特性空间中两个数据点之间的间隔,将间隔乘以0到1之间的一个随机数,并将新数据点放在间隔计较所用数据点之一的新间隔上。留意,用于数据天生的最近邻的数目也是一个超参数,可以按照必要举办变动。 图11:基于K=3,合成少数过采样技能进程 M-SMOTE是一个改造版的SMOTE,它思量了数据中少数分类的底层漫衍。该算法将少数类的样天职为安详/安详样本、界线样本和隐藏噪声样本三大类。这是通过计较少数类样本与实习数据样本之间的间隔来实现的。与SMOTE差异的是,该算法从k个最近邻中随机选择一个数据点作为安详样本,从界线样本中选择最近邻,对隐藏噪声不做任那里理赏罚。 集成技能:聚合多个弱进修者/差异模子在处理赏罚不服衡的数据集时表现出了很好的结果。装袋和增压技能在各类百般的题目上都表现出了很好的结果,应该与上面接头的要领一路试探,以得到更好的结果。可是为了更具体地相识各类集成技能以及怎样将它们用于不服衡的数据,请参考下面的博客。 https://www.analyticsvidhya.com/blog/2017/03/imbalanced-classification-problem/ 总结 在这段中,我们看到数据的巨细也许会浮现出泛化、数据不服衡以及难以到达全局最优等题目。我们已经先容了一些最常用的技能来办理传统呆板进修算法中的这些题目。按照手头的营业题目,上述一种或多种技能可以作为一个很好的出发点。 相干报道: https://towardsdatascience.com/breaking-the-curse-of-small-datasets-in-machine-learning-part-1-36f28b0c044d 【本文是51CTO专栏机构大数据文摘的原创文章,微信公家号“大数据文摘( id: BigDataDigest)”】 戳这里,看该作者更多好文
(编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |