呆板进修算法优弱点对等到选择（汇总篇）

发布时间：2019-01-25 05:47:13 所属栏目：建站来源：数智物语

导读：本文的目标，是务实、简捷地皮址一番当前呆板进修算法。文中内容团结了小我私人在查阅资料进程中网络到的前人总结，同时添加了部门自身总结，在这里，依据现实行使中的履历，将对此类模子优弱点及选择详加接头。首要回首下几个常用算法的顺应场景及其优弱点！

逻辑回归属于鉴别式模子，同时伴有许多模子正则化的要领（L0， L1，L2，etc），并且你不必像在用朴实贝叶斯那样担忧你的特性是否相干。与决定树、SVM对比，你还会获得一个不错的概率表明，你乃至可以轻松地操作新数据来更新模子（行使在线梯度降落算法-online gradient descent）。假如你必要一个概率架构（好比，简朴地调理分类阈值，指明不确定性，可能是要得到置信区间），可能你但愿往后将更多的实习数据快速整合到模子中去，那么行使它吧。

Sigmoid函数：表达式如下:

利益：

1. 实现简朴，普及的应用于家产题目上；

2. 分类时计较劲很是小，速率很快，存储资源低；

3. 便利的视察样本概率分数；

4. 对逻辑回归而言，多重共线性并不是题目，它可以团结L2正则化来办理该题目；

5. 计较价钱不高，易于领略和实现。

弱点：

1. 当特性空间很大时，逻辑回归的机能不是很好；

2. 轻易欠拟合，一样平常精确度不太高；

3. 不能很好地处理赏罚大量多类特性或变量；

4. 只能处理赏罚两分类题目（在此基本上衍生出来的softmax可以用于多分类），且必需线性可分；

5. 对付非线性特性，必要举办转换。

logistic回归应用规模：

1. 用于二分类规模，可以得出概率值，合用于按照分类概率排名的规模，如搜刮排名等；

2. Logistic回归的扩展softmax可以应用于多分类规模，如手写字辨认等；

3. 名誉评估；

4. 丈量市场营销的乐成度；

5. 猜测某个产物的收益；

6. 特定的某天是否会产生地动。

3.3 线性回归

线性回归是用于回归的，它不像Logistic回归那样用于分类，其根基头脑是用梯度降落法对最小二乘法情势的偏差函数举办优化，虽然也可以用normal equation直接求得参数的解，功效为：

而在LWLR（局部加权线性回归）中，参数的计较表达式为:

由此可见LWLR与LR差异，LWLR是一个非参数模子，由于每次举办回归计较都要遍历实习样本至少一次。

利益：实现简朴，计较简朴。

弱点：不能拟合非线性数据。

3.4 最近邻算法——KNN

KNN即最近邻算法，其首要进程为：

1. 计较实习样本和测试样本中每个样本点的间隔（常见的间隔怀抱有欧式间隔，马氏间隔等）；

2. 对上面全部的间隔值举办排序(升序)；

3. 选前k个最小间隔的样本；

4. 按照这k个样本的标签举办投票，获得最后的分类种别。

怎样选择一个最佳的K值，这取决于数据。一样平常环境下，在分类时较大的K值可以或许减小噪声的影响，但会使种别之间的边界变得恍惚。一个较好的K值可通过各类开导式技能来获取，好比，交错验证。其它噪声和非相干性特性向量的存在会使K近邻算法的精确性减小。近邻算法具有较强的同等性功效，跟着数据趋于无穷，算法担保错误率不会高出贝叶斯算法错误率的两倍。对付一些好的K值，K近邻担保错误率不会高出贝叶斯理论偏差率。

KNN算法的利益

1. 理论成熟，头脑简朴，既可以用来做分类也可以用来做回归；

2. 可用于非线性分类；

3. 实习时刻伟大度为O(n)；

4. 对数据没有假设，精确度高，对outlier不敏感；

5. KNN是一种在线技能，新数据可以直接插手数据集而不必举办从头实习；

6. KNN理论简朴，轻易实现。

弱点

1. 样本不服衡题目（即有些类此外样本数目许多，而其余样本的数目很少）结果差；

2. 必要大量内存；

3. 对付样本容量大的数据集计较劲较量大（表此刻间隔计较上）；

4. 样本不服衡时，猜测毛病较量大。如：某一类的样本较量少，而其余类样本较量多；

5. KNN每一次分类城市从头举办一次全局运算；

6. k值巨细的选择没有理论选择最优，每每是团结K-折交错验证获得最优k值选择。

KNN算法应用规模

文天职类、模式辨认、聚类说明，多分类规模

3.5 决定树

决定树的一大上风就是易于表明。它可以毫无压力地处理赏罚特性间的交互相关而且长短参数化的，因此你不必担忧非常值可能数据是否线性可分（举个例子，决定树能轻松处理赏罚好种别A在某个特性维度x的结尾，种别B在中间，然后种别A又呈此刻特性维度x前端的环境）。它的弱点之一就是不支持在线进修，于是在新样本到来后，决定树必要所有重建。另一个弱点就是轻易呈现过拟合，但这也就是诸如随机丛林RF（或晋升树boosted tree）之类的集成要领的切入点。其它，随机丛林常常是许多分类题目的赢家（凡是比支持向量机好上那么一丁点），它实习快速而且可调，同时你无须担忧要像支持向量机那样调一大堆参数，以是在早年都一向很受接待。

决定树中很重要的一点就是选择一个属性举办分枝，因此要留意一下信息增益的计较公式，并深入领略它。

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/9

首页

尾页

SEO排名难做的四大原因	在保持网站优化的同时
网站SEO优化的几个技巧	网站原创内容怎么写？