呆板进修的降维是什么
什么是呆板进修的降维? 呆板进修算法因为可以或许从具有很多特性的数据(譬喻具稀有十行的表格和数百万像素的图像)中提取相干信息而有名。得益于云计较技能的前进,组织可以轻松地运行复杂的呆板进修模子,而无需存眷其背后必要有几多计较手段。
作者:李睿来历:51CTO|2021-05-24 08:00 保藏 分享 【51CTO.com快译】呆板进修算法因为可以或许从具有很多特性的数据(譬喻具稀有十行的表格和数百万像素的图像)中提取相干信息而有名。得益于云计较技能的前进,组织可以轻松地运行复杂的呆板进修模子,而无需存眷其背后必要有几多计较手段。
可是,组织添加到模子中的每个新成果城市增进其伟大性,从而使呆板进修算法难以办理这些题目。数据科学家为此行使降维技能举办简化,而降维技能是从其呆板进修模子中删除过多或不相干成果的一组技能。
降维镌汰了呆板进修的本钱,偶然还可以行使更简朴的模子办理伟大的题目。
维度的题目
呆板进修模子将特性映射到功效。譬喻,假设一个组织要建设一个呆板模子来猜测一个月的降雨量。该组织拥有一个体离在差异月份从差异都市网络的差异信息的数据集。其数据点包罗气温、湿度、都市生齿、交通、都市进行的音乐会次数、风速、风向、气压、降雨量以及购置的公交车票数目。并非全部这些信息都与降雨猜测有关。
某些特性也许与方针变量无关。显而易见的是,购置公交车票的数目和都市生齿数目并不会影响降雨。而其特性也许与方针变量相干,但与方针变量并没有因果相关。譬喻,户外音乐会的次数也许与降雨量有关,但这并不是猜测降雨的精采指标。在其他环境下(譬喻碳排放),其特性与方针变量之间也许存在接洽,但其影响可以忽略不计。
在这一示例中,可以很明明区分出哪些特性更有代价,哪些特性是无用的。在其他用例中,过多的特性也许并不明明,必要进一步的数据说明。
可是,为什么要去掉多余的特性呢?当特性太多时,还必要回收一个更伟大的模子。而更伟大的模子意味着组织必要更多的实习数据和更多的计较手段,才气将模子实习到可接管的程度。
呆板进修并不领略因果相关。但纵然没有因果相关,呆板进修模子也会实行将其数据齐集包括的全部特性映射到方针变量。这样做将会导致模子不准确和错误。另一方面,镌汰特性的数目可以使呆板进修模子更简朴、更高效、数据需求更少。
因为太多的特性所造成的题目凡是被称为“维度谩骂”,它们不限于表格数据。譬喻一个对图像举办分类的呆板进修模子。假如数据集由100×100像素的图像构成,则其题目空间具有10,000个特性,每个像素一个特性。可是,纵然在图像分类题目中,某些特性也是多余的,可以去除。
降维可以辨认并删除侵害呆板进修模子机能或瞄精确性没有辅佐的特性。此刻有多种降维技能,每种降维技能在某些环境下都很是有效。
特性的选择
一种根基且很是有用的降维技能是辨认并选择与方针变量最相干的特性质集。这项技能称为“特性选择”。在处理赏罚表格数据时,特性选择出格有用,在表格数据中,每一列代表一种特定的信息。
在选择特性时,数据科学家必要做两件事:一是保持与方针变量高度相干的特性,二是使数据集的方差孝顺变得最大。诸如Python的Scikit-learn之类的库具有很多精采的成果,可以说明、可视化和选择得当呆板进修模子的成果。
譬喻,数据科学家可以行使散点图和热图来可视化差异特性的协方差。假如两个特性彼此高度相干,那么它们将对方针变量发生相似的影响,而在呆板进修模子中都包括这两个特性是不须要的。因此,可以删除个中一个特性,而不会对模子的机能造成负面影响。
热图声名白差异特性之间的协方差,它们是查找和裁减多余特性的精采指南。
沟通的器材可以辅佐可视化要素与方针变量之间的相干性。这有助于删除不影响方针的变量。譬喻,在也许发明数据齐集的25个特性中,有7个特性对方针变量的影响占到95%。这样可以删除其他18个特性,将会让呆板进修模子的行使简朴得多,而不会对模子的精确性造成重大影响。
投影技能 偶然,组织无法选择删除单个特性。但这并不料味着无法简化呆板进修模子。投影技能也称为“特性提取”,通过将多个特性压缩到低维的空间中来简化模子。
用于暗示投影技能的一个常见示例是“瑞士卷”(如下图所示),它是一组环绕三个维度在卷轴上旋转的数据点。该数据集具有三个特性。每个点(方针变量)的值是按照其沿盘旋路径到“瑞士卷”中心的间隔来丈量的。在下面的图片中,红点更接近卷轴,而黄点离卷轴更远。
在当前状态下,建设一个将瑞士卷转动点的特性映射到其值的呆板进修模子是一项难题的使命,而且必要回收具有很多参数的伟大模子。可是借助降维技能,可以将这些点投影到一个较低维度的空间,该空间可以通过简朴的呆板进修模子来进修。
数据科学家开拓了各类投影技能。在上面的示例中行使了“局部线性嵌入”算法,该算法在保存脱离数据点值的要害元素的同时,减小了题目空间的维数。当行使局部线性嵌入(LLE)处理赏罚数据时,其功效相同于下图,就像睁开的“瑞士卷”。每种颜色的点聚积在一路。现实上,这个题目如故可以简化为单一的特性,并行使线性回归(最简朴的呆板进修算法)举办建模。
尽量这个示例是假设的,但假如将特性投影到较低维度的空间,则常常会碰着可以简化的题目。譬喻,风行的降维算法“主因素说明”(PCA)已经发明很多有效的应用措施可以简化呆板进修题目。
在《回收Python举办呆板进修》一书中,数据科学家Aurelien Geron展示了怎样行使“主因素说明”(PCA)将MNIST数据集从784个特性(28×28像素)镌汰到150个特性,同时保存95%的方差。这种降维技能对付低落人工神经收集的实习和运行本钱有着庞大的影响。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |