加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

一文解读合成数据在呆板进修技能下的示意

发布时间:2018-08-26 00:31:15 所属栏目:教程 来源:数据派
导读:作者:Eric Le Fort 编译:蒋雨畅 卢苗苗 设法 对比于数目有限的有机数据,我将说明、测评合成数据是否能实现改造。 念头 我对合成数据的有用性持猜疑立场猜测模子只能与用于实习数据的数据集一样好。这种猜疑论点燃了我心田的设法,即通过客观观测来研究
副问题[/!--empirenews.page--]

一文解读合成数据在呆板进修技能下的示意

作者:Eric Le Fort

编译:蒋雨畅 卢苗苗

设法

对比于数目有限的“有机”数据,我将说明、测评合成数据是否能实现改造。

念头

我对合成数据的有用性持猜疑立场——猜测模子只能与用于实习数据的数据集一样好。这种猜疑论点燃了我心田的设法,即通过客观观测来研究这些直觉。

需具备的常识

本文的读者应该处于对呆板进修相干理论领略的中间程度,而且应该已经认识以下主题以便充实领略本文:

  • 根基统计常识,譬喻“尺度差”一词的寄义
  • 认识神经收集,SVM和决定树(假如您只认识个中的一个或两个,那也许就行了)
  • 相识根基的呆板进修术语,譬喻“实习/测试/验证集”的寄义

合成数据的配景

天生合成数据的两种常用要领是:

  • 按照某些漫衍或漫衍荟萃绘制值
  • 个别为本模子的建模

在这项研究中,我们将搜查第一类。为了固定这个设法,让我们从一个例子开始吧!

想象一下,在只思量巨细和体重的环境下,你试图确定一只动物是老鼠,田鸡照旧鸽子。但你只有一个数据集,每种动物只有两个数据。因此不幸的是,我们无法用云云小的数据集实习出好的模子!

这个题目的谜底是通过预计这些特性的漫衍来合成更大都据。让我们从田鸡的例子开始

参考这篇维基百科的文章(只思量成年轻蛙):https://en.wikipedia.org/wiki/Common_frog

第一个特性,即它们的均匀长度(7.5cm±1.5cm),可以通过从正态漫衍中绘制均匀值为7.5且尺度毛病为1.5的值来天生。相同的技能可用于猜测它们的重量。

然而,我们所把握的信息并不包罗其体重的典范范畴,只知道均匀值为22.7克。一个设法是行使10%(2.27g)的恣意尺度毛病。不幸的是,这只是纯粹揣摩的功效,因此很也许禁绝确。

鉴于与其特性相干信息的可得到性,和基于这些特性来区分物种的轻易水平,这也许足以作育精采的模子。可是,当您迁徙到具有更多特性和区别更渺小的生疏体系时,合成有效的数据变得越发坚苦。

数据

该说明行使与上面接头的类比沟通的设法。我们将建设一些具有10个特性的数据集。这些数据集将包括两个差异的分类种别,每个类此外样本数沟通。

“有机”数据

每个种别将遵循个中每个特性的某种正态漫衍。譬喻,对付第一种特性:第一个种别样本的均匀值为1500,尺度差为360;第二个种别样本的均匀值为1300,尺度差为290。别的特性的漫衍如下:

“有机”数据

该表很是麋集,但可以总结为:

  • 有四个特性在两类之间险些无法区分,
  • 有四个特性具有明明的重叠,但在某些环境下应该可以区分,而且
  • 有两个特性只有一些重叠,凡是是可区分的。

建设两个这样的数据集,一个1000样本的数据集将保存为验证集,另一个1000样本的数据集可用于实习/测试。

这会建设一个数据集,使分类变得足够强盛。

合成数据

此刻工作开始变得风趣了!合成数据将遵循两个自界说漫衍中的个中一个。第一个我称之为“ Spikes Distribution”。此漫衍仅应承合成特性回收少数具有每个值的特定概率的离散值。譬喻,假如原始漫衍的均匀值为3且尺度差为1,则尖峰(spike)也许呈此刻2(27%),3(46%)和4(27%)。

第二个自界说漫衍我称之为“ Plateaus Distribution”。这种漫衍只是分段匀称漫衍。行使平台中心的正态漫衍概率推导出安稳点的概率。您可以行使恣意数目的尖峰或平台,当添加更多时,漫衍将更靠近正态漫衍。

为了清晰声名这两个漫衍,可以参考下图:

一文解读合成数据在呆板进修技能下的示意

(注:尖峰漫衍图不是概率密度函数)

在这个题目中,合成数据的进程将成为一个很是重要的假设,它有利于使合成数据更靠近于“有机”数据。该假设是每个特性/种别对的真实均匀值和尺度差是已知的。现实上,假如合成数据与这些值相差太远,则会严峻影响实习模子的精确性。

好的,但为什么要行使这些漫衍?他们怎样反应实际?

我很兴奋你问这个题目!在有限的数据齐集,您也许会留意到,对付某个种别,某个特性只会占用少量值。想象一下这些值是:

  1. (50,75,54,49,24,58,49,64,43,36) 

可能假如我们可以对这罗列办排序:

  1. (24,36,43,49,49,50,54,58,64,75) 

为了天生此特性的数据,您可以将其拆分为三个部门,个中第一部门将是最小的20%,中间的60%将是第二部门,第三部门将是最大的20%。然后行使这三个部门,您可以计较它们的均匀值和尺度差:别离为(30,6.0),(50.5,4.6)和(69.5,5.5)。假如尺度差相等低,好比约莫为响应均值的10%或更小,则可以将该均值视为该部门的尖峰值。不然,您可以将该部门视为一个平台,其宽度是该部门尺度差的两倍,并以该部门的均匀值作为中心。

可能,换句话说,他们在模仿不美满的数据合成方面做得不错。

我将行使这些漫衍建设两个800样本数据集 - 一个行使尖峰,另一个行使平台。四个差异的数据集将用于实习模子,以便较量每个数据集的有效性:

  • 完备 (Full) - 完备的1000个样本有机数据集(用于相识上限)
  • 真实 (Real) - 只有20%的样本有机数据集(模仿环境而不添加合成数据)
  • 尖峰(Spike) - “真实”数据集与尖峰数据集相团结(1000个样本)
  • 平台(Plateaus) - “真实”数据集与平台数据集相团结(1000个样本)

此刻开始令人欢快的部门!

实习

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读