一文解读合成数据在呆板进修技能下的示意
为了测试每个数据集的强度,我将回收三种差异的呆板进修技能:多层感知器(MLP),支持向量机(SVM)和决定树(Decision Trees)。为了辅佐实习,因为某些特性的幅度比其他特性大得多,因此操作特性缩放来类型化数据。行使网格搜刮调解各类模子的超参数,以最大化达到最好的超参数集的概率。 总之,我在8个差异的数据集上实习了24种差异的模子,以便相识合成数据对进修结果的影响。 相干代码在这里:https://github.com/EricLeFort/DataGen 功效 颠末几个小时调解超参数并记录下精度丈量功效后,呈现了一些反直觉的功效!完备的功效集可以在下表中找到: ☟多层感知器(MLP) ☟支持向量机(SVM) ☟决定树(Decision Trees) 在这些表中,“Spike 9”或“Plateau 9”是指漫衍和行使的尖峰/平台的数目。单位格中的值是行使响应的实习/测试数据对模子举办实习/测试,并用验证集验证后的的最终精度。还要记着,“完备”(Full)种别应该是精确性的理论上限,“真实”(Rea;)种别是我们在没有合成数据的环境下可以实现的基线。 一个重要的留意事项是,(险些)每次试验的实习/测试精确度都明明高于验证精确度。譬喻,尽量MLP在Spike-5上得分为97.7%,但在统一试验的实习/测试数据上别离得分为100%和99%。当在实际天下中行使时,这也许导致模子有用性的过高预计。 完备的这些丈量可以在GitHub找到:https://github.com/EricLeFort/DataGen 让我们细心看看这些功效。 起首,让我们看一下模子间的趋势(即在全部呆板进修技能范例中的合成数据集范例的影响)。好像增进更多尖峰/平台并不必然有助于进修。你可以看到在3对 5时尖峰/平台之间的一样平常改进,可是当看到5对9时,则要么变平或轻微倾斜。 对我来说,这好像是违背直觉的。跟着更多尖峰/平台的增进,我估量会看到险些一连的改进,由于这会导致漫衍更相同于用于合成数据的正态漫衍。 此刻,让我们看一下模子内的趋势(即各类合成数据集对特定呆板进修技能的影响)。对付MLP来说,尖峰或平台是否会带来更好的机能好像穷乏纪律。对付SVM,尖峰僻静台好像示意得同样好。然而,对付决定树而言,平台是一个明明的赢家。 总的来说,在行使合成数据集时,始终能调查到明明的改造! 往后的事变 必要留意的一个重要身分是,本文的功效固然在某些方面有效,但如故具有相等的展望性。因此,仍必要多角度的说明以便安详地做出任何明晰的结论。 这里所做的一个假设是每个种别只有一个“范例”,但在实际天下中并不老是云云。譬喻,杜宾犬和吉娃娃都是狗,但它们的重量漫衍看起来很是差异。 另外,这根基上只是一种范例的数据集。应该思量的另一个方面是实行相同的尝试,除了具有差异维度的特性空间的数据集。这也许意味着有15个特性而不是10个或模仿图像的数据集。 相干报道:https://www.codementor.io/ericlefort/my-thoughts-on-synthetic-data-kq719a5ss 【本文是51CTO专栏机构大数据文摘的原创译文,微信公家号“大数据文摘( id: BigDataDigest)”】 戳这里,看该作者更多好文 【编辑保举】
点赞 0 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |