加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长百科 > 正文

为你的回归题目选择最佳呆板进修算法

发布时间:2019-02-22 11:49:39 所属栏目:站长百科 来源:谢涛
导读:【编译】在处理赏罚任何范例的呆板进修(ML)题目时,我们有很多差异的算法可供选择。而呆板进修规模有一个获得各人共鸣的概念,或许就是:没有一个ML算法可以或许最佳地合用于办理全部题目。差异ML算法的机能在很洪流平上取决于数据的巨细和布局。因此,怎样选择正

  【编译】在处理赏罚任何范例的呆板进修(ML)题目时,我们有很多差异的算法可供选择。而呆板进修规模有一个获得各人共鸣的概念,或许就是:没有一个ML算法可以或许最佳地合用于办理全部题目。差异ML算法的机能在很洪流平上取决于数据的巨细和布局。因此,怎样选择正确的算法每每是一个浩劫题,除非我们直接通过大量的试验和错误来测试我们的算法。

为你的回归题目选择最佳呆板进修算法

  可是,每个ML算法都有一些利益和弱点,我们可以将它们用作指导。固然一种算法并不老是比另一种更好,可是我们可以行使每种算法的一些属性作为快速选择正确算法和调优超参数的指南。我们将先容一些用于回归题目的闻名ML算法,并按照它们的优弱点配置行使它们的指导目的。这篇文章将辅佐您为回归题目选择最好的ML算法!

  线性和多项式回归

为你的回归题目选择最佳呆板进修算法

线性回归

  从简朴的环境开始。单变量线性回归是一种用于行使线性模子譬喻一条线对单个输入自变量(特性变量)和输出因变量之间的相关举办建模的技能。更广泛的环境是多变量线性累加,个中为多个独立输入变量(特性变量)和输出因变量之间的相关建设了一个模子。模子保持线性,由于输出是输入变量的线性组合。

  第三种最广泛的环境叫做多项式回归模子此刻酿成了特性变量的非线性组合,譬喻可所以指数变量,和余弦等,但这必要知道数据与输出的相关。回归模子可以行使随机梯度降落(SGD)举办实习。

  利益:

  ·快速建模,当要建模的相关不长短常伟大,并且你没有很大都据时,这长短常有效的。

  ·线性回归很轻易领略哪些对营业决定很是有效。

  弱点:

  ·对付非线性数据,多项式回归的计划长短常具有挑衅性的,由于必需有一些关于数据布局和特性变量之间相关的信息。

  ·因此,当涉及到高度伟大的数据时,,这些模子并不像其他模子那样好。

  神经收集

为你的回归题目选择最佳呆板进修算法

神经收集

  神经收集由一组彼此毗连的被称作神经元的节点构成。数据中的输入特性变量作为多变量线性组合转达给这些神经元,个中每个特性变量乘以的值称为权重。然后将非线性应用于这种线性组合,使神经收集可以或许成立伟大的非线性相关。神经收集可以有多个层,个中一层的输出以同样的方法转达给下一层。在输出端,凡是不该用非线性。神经收集的实习行使随机梯度降落(SGD)和反向撒播算法(两者都表现在上面的GIF中)。

  利益:

  ·因为神经收集可以有很多具有非线性的层(和参数),因此它们在建模高度伟大的非线性相关时很是有用。

  ·我们凡是不必要担忧,神经收集的数据布局在进修任何范例的特性变量相关时都很机动。

  ·研究表白,简朴地向收集提供更多的实习数据,无论是全新的,照旧增进原始数据集,都有利于收集机能。

  弱点:

  ·因为这些模子的伟大性,它们并不轻易表明和领略。

  ·对付实习而言,它们也许具有相等的挑衅性和计较麋集性,必要细心举办超参数调解,设定进修进度打算。

  ·它们必要大量的数据才气得到高机能,在“小数据”环境下,它们每每会被其他ML算法逾越。

  回归树和随机丛林

为你的回归题目选择最佳呆板进修算法

随机丛林

  从根基环境开始。决定树是一种直观的模子,通过一个遍历树的分支,并按照节点上的决定选择下一个分支。树诱导是将一组实习实例作为输入的使命,抉择哪些属性最得当拆分,支解数据集,并在发生的拆分数据集上一再呈现,直到全部的实习实例都被分类为止。构确立时,方针是对建设也许的最高纯度子节点的属性举办支解,这将使对数据齐集的全部实例举办分类时,必要举办的支解数目保持最低。纯度是由信息增益的观念来权衡的,这一观念涉及为了对其举办恰当的分类,必要对一个早年不行见的实例相识几多。在实践中,通过较量熵,或对当前数据集分区的单个实例举办分类所需的信息量,对单个实例举办分类,假如当前的数据集分区要在给定的属性长进一步分区的话。

  随机丛林只是一组决定树。输入向量在多个决定树中运行。对付回归,取全部树的输出值的均匀值;对付分类,行使投票方案来抉择最终的类。

  利益:

  ·善于进修伟大的、高度非线性的相关。它们凡是可以到达相等高的机能,比多项式回归更好,并且凡是与神经收集相等。

  ·很轻易表明和领略。固然最终的实习模子可以进修伟大的相关,可是在实习进程中成立的决定界线是很轻易领略和适用的。

  弱点:

  ·因为实习决定树的性子,它们也许倾向于首要的太过拟合。一个完备的决定示范子也许过于伟大,包括不须要的布局。固然这偶然可以通过恰当的树木修剪和更大的随机丛林组合来缓解。

  ·行使更大的随机丛林组合来实现更高的机能带来了速率慢和必要更多内存的弱点。

  最后

  但愿你喜好这篇文章,并学到一些新的和有效的对象。

  作者:George Seif AI/呆板进修工程师

  原文链接:https://www.kdnuggets.com/2018/08/selecting-best-machine-learning-algorithm-regression-problem.html

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读