加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

做机器学习项目数据不够?这里有5个不错的解决办法

发布时间:2019-07-04 10:50:21 所属栏目:教程 来源:Alexandre Gonfalonieri
导读:很多开展人工智能项目标公司都具有精彩的营业理念,可是当企业AI团队发明本身没有足够多的数据时,就会逐步变得异常沮丧......不外,这个题目的办理方案照旧有的。 本文将扼要先容个中一些经笔者实践证明晰实有用的步伐。 数据稀缺的题目很是重要,由于数

迁徙进修的另一个常见应用是在跨客户数据集上实习模子,以降服冷启动题目。笔者留意到很多SaaS公司在将新客户插手他们的ML产物中时,常常必要处理赏罚这个题目。现实上,在新客户网络到足够的数据以实现精采的模子机能(也许必要几个月)之前,很难提供有用的代价。

数据扩充

数据扩充暗示增进数据点的数目。在笔者的最新项目中,我们行使数据扩充技能来增进数据齐集的图像数目。就传统的行/列名目数据而言,这意味着增进行或工具的数目。

我们别无选择,只能依赖数据扩充,缘故起因有两个:时刻和精确性。每个数据网络进程都与本钱相干联,这个本钱可所以美元、人力、计较资源,虽然也可所以进程中耗损的时刻。

因此,我们不得不扩充现稀有据,以增进我们提供应ML分类器的数据巨细,并赔偿进一步数据网络所发生的本钱。

有许多要领可以扩凑数据。如故是汽车图像的例子,你可以旋转原始图像,变动光照前提,以差异方法裁剪。因此对付一个图像,你可以天生差异的子样本。 这样,你就可以镌汰对分类器的太过拟合。

可是,假如你行使过采样要领(如SMOTE)天生人工数据,那么很也许会激发太过拟合。

在开拓AI办理方案时,你必需思量这一点。

合成数据

合成数据是指包括与“真实”对应物沟通模式和统计属性的卖弄数据。根基上,这些数据看起来很是真实,险些看不出来它是假数据。

那么,合成数据的意义是什么呢?假如我们已经得到了真实的数据,为什么又要做这件事?

在某些环境下,出格是当我们处理赏罚私家数据(银行,医疗保健等)时,行使合成数据着实是一种更安详的开拓要领。

合成数据首要用于没有足够的现实数据,可能没有足够的现实数据用于特定的模式。对付实习和测试数据集,它的用法基内情同。

合成少数类过采样技能(SMOTE)和Modified-SMOTE是天生合成数据的两种技能。简朴地说,SMOTE回收少数类数据点并建设位于由直线毗连的任何两个最近数据点之间的新数据点。

该算法计较特性空间中两个数据点之间的间隔,将间隔乘以0到1之间的一个随机数,并将新数据点放在间隔计较所用数据点之一的新间隔上。

为了天生合成数据,你必需行使一个实习集来界说一个模子,这必要举办验证,然后通过变动感乐趣的参数,你就可以通过仿真天生合成数据。域/数据的范例很是重要,由于它影响整个流程的伟大性。

在笔者看来,在开始做一个AI项目时,问问本身是否有足够的数据,也许会显现你早年大概从未意识到的题目,这有助于揭破你以为美满的营业流程中的题目,并让你相识为什么这个题目是在企业中建设乐成数据计谋的要害地址。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读