做机器学习项目数据不够?这里有5个不错的解决办法
副问题[/!--empirenews.page--]
很多开展人工智能项目标公司都具有精彩的营业理念,可是当企业AI团队发明本身没有足够多的数据时,就会逐步变得异常沮丧......不外,这个题目的办理方案照旧有的。 本文将扼要先容个中一些经笔者实践证明晰实有用的步伐。 数据稀缺的题目很是重要,由于数据是任何AI项目标焦点,数据集的巨细每每是影响项目示意是非的一个重要身分。大大都环境下,与数据相干的题目,每每都是无法做出优越人工智能项目标首要缘故起因。 有监视的呆板进修模子正普及用于应对各类营业挑衅。可是这些模子必要大量数据,其机能也在很洪流平上取决于实习数据的几多。可是在很多环境下,AI团队很难建设足够大的实习数据集。 同时尚有另一个题目,那就是项目说明师也许会低估处理赏罚常见营业题目所需的数据量。在为大公司事变时,网络数据会越发伟大。 我必要几多数据? 在很多环境下,你必要约莫10倍的数据,由于模子中有自由度。模子越伟大,就越轻易太过拟合,但可以通过模子校验来停止。 不外,按照用例的现实环境,所需的数据可以恰当镌汰。 尚有须要接头一下的是,如那里理赏罚缺失值的题目。出格是假如数据中缺失值的数目足够大(高出5%)。 值得一提的是,处理赏罚缺失值依靠某些既定的“乐成”尺度。另外,这些尺度对付差异的数据集乃至对付差异的应用也是差异的,譬喻辨认、支解、猜测和分类(给定沟通的数据集)。 选择什么样的办理方案取决于题目的范例——如时刻序列说明,ML,回归等。 涉及到猜测技能时,只有当缺失值不是完全随机调查到的时辰才应该举办行使,而且必要选择变量来估算这些缺失值与它有某种相关,不然也许发生不准确的预计。 一样平常来说,可以行使差异的呆板进修算法来确定缺失值。可以将缺傲幽特性转换为标签自己,然后再行使没有缺失值的列来猜测具有缺失值的列。 按照笔者的履历,假如你抉择构建一个基于AI的办理方案,那么在某些时辰你将面对缺乏数据或穷乏数据的题目, 但荣幸的是,有许多要领可以将这个“负”变为“正”。 穷乏数据? 如上所述,不行能准确预计AI项目所需的最小数据量,项目自己将明显影响你必要的数据量的几多。譬喻,文本、图像和视频凡是必要更大都据。可是,为了做出精确的预计,还应思量很多其他身分。
模子的预期输出是什么?根基上来说,数目或种别越少越好。
假如你打算将项目投入出产,则必要更多。 一个小数据集,用于观念验证也许足够了,但在出产中,你必要更大都据。 一样平常来说,小型数据集必要低伟大度(或高毛病)的模子,以停止模子对数据的太过拟合。 非技能办理方案 在探讨技能办理方案之前,让我们说明一下可以通过哪些要领来加强数据集。这也许是一句空话,但在开始AI项目之前,必要通过开拓外部和内部器材尽也许多地网络数据。假如你知道呆板进修算法预期要执行的使命,那就可以提前建设数据网络机制。 其它在启动ML项目时,你也可以借助开源数据。收集上有许多可用于ML的数据,其所属公司已经筹备好将其弃用。 假如你必要项目标外部数据,与其他组织成立相助搭档相关以获取相干数据的步伐也许会有效。形成相助相关显然会耗费你一些时刻,但得到的专稀有据将为你提供自然的竞争力。 构建一个有效的应用措施,别管这个应用,只用数据 笔者在之前的项目中行使的另一种要领是向客户提供对云应用措施的会见权限,进入应用的数据可用于构建呆板进修模子。笔者早年的客户为医院成立了一个应用措施并供其免费行使。我们网络了大量数据,并想法为我们的ML办理方案建设了一个奇异的数据集。
按照笔者的履历,行使小数据集构建猜测模子的一些常用要领有: 凡是,呆板进修算法越简朴,就越能从小数据齐集进修。从ML的角度来看,小数据必要具有低伟大度(或高毛病)的模子,以停止将模子太过拟合到数据。朴实贝叶斯算法是最简朴的分类器之一,因此从相对较小的数据齐集进修得很是好。 你还可以依靠其他线性模子和决定树。现实上,它们在小数据集上的示意也相对较好。根基上,简朴模子可以或许比更伟大的模子(神经收集)更好地从小数据齐集进修,由于它们本质上是在全力实现更少的进修。 对付很是小的数据集,贝叶斯要领凡是是类中最好的,尽量功效也许对您的先验选择很敏感。笔者以为朴实贝叶斯分类器和岭回归是最好的猜测模子。 对付小数据集,你必要具有少量参数(低伟大性)和/或强先验的模子。你还可以将“先验”表明为你可以对数据举动方法做出的假设。 按照营业题目简直切性子和数据集的巨细,确实存在很多其他办理方案。 迁徙进修 界说: 在构建呆板进修模子时,操作现有相干数据或模子的框架。 迁徙进修行使从进修使命中得到的常识来改造相干使命的机能,凡是可以镌汰所需的实习数据量。 迁徙进修技能很有效,由于它们应承模子行使从另一个数据集或现有呆板进修模子(称为源域)得到的常识对新域或使命(方针域)举办猜测。 当您没有足够的方针实习数据时,应思量行使迁徙进修技能,源域和方针域有一些相似之处,但不尽沟通。 纯真地聚合模子或差异的数据集并不老是有用的,假如现稀有据集与方针数据很是差异,则新的进修模子也许会受到现稀有据或模子的负面影响。 当你有其他可用于揣度常识的数据集时,迁徙进修结果很好,可是假如你基础没稀有据,这时该怎么办?此时,数据天生可以提供很大的辅佐。当没稀有据可用,可能你必要建设的数据高出你通过聚合网络到的数据时,可以行使这一要领。 简朴来说,该要领必要修改现存的少量数据,以建设该数据的变体,进而实习模子。譬喻,可以通过裁剪和缩小某一个汽车图像,来天生更多的汽车图像。 缺乏高质量的标签数据也是数据科学团队面对的最大挑衅之一,通过行使迁徙进修和数据天生等技能,可以在必然水平上降服数据稀缺题目。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |