加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

呆板进修算法优弱点对等到选择(汇总篇)

发布时间:2019-01-25 05:47:13 所属栏目:建站 来源:数智物语
导读:本文的目标,是务实、简捷地皮址一番当前呆板进修算法。文中内容团结了小我私人在查阅资料进程中网络到的前人总结,同时添加了部门自身总结,在这里,依据现实行使中的履历,将对此类模子优弱点及选择详加接头。 首要回首下几个常用算法的顺应场景及其优弱点!

逻辑回归属于鉴别式模子,同时伴有许多模子正则化的要领(L0, L1,L2,etc),并且你不必像在用朴实贝叶斯那样担忧你的特性是否相干。与决定树、SVM对比,你还会获得一个不错的概率表明,你乃至可以轻松地操作新数据来更新模子(行使在线梯度降落算法-online gradient descent)。假如你必要一个概率架构(好比,简朴地调理分类阈值,指明不确定性,可能是要得到置信区间),可能你但愿往后将更多的实习数据快速整合到模子中去,那么行使它吧。

Sigmoid函数:表达式如下:

呆板进修算法优弱点对等到选择(汇总篇)

利益:

1. 实现简朴,普及的应用于家产题目上;

2. 分类时计较劲很是小,速率很快,存储资源低;

3. 便利的视察样本概率分数;

4. 对逻辑回归而言,多重共线性并不是题目,它可以团结L2正则化来办理该题目;

5. 计较价钱不高,易于领略和实现。

弱点:

1. 当特性空间很大时,逻辑回归的机能不是很好;

2. 轻易欠拟合,一样平常精确度不太高;

3. 不能很好地处理赏罚大量多类特性或变量;

4. 只能处理赏罚两分类题目(在此基本上衍生出来的softmax可以用于多分类),且必需线性可分;

5. 对付非线性特性,必要举办转换。

logistic回归应用规模:

1. 用于二分类规模,可以得出概率值,合用于按照分类概率排名的规模,如搜刮排名等;

2. Logistic回归的扩展softmax可以应用于多分类规模,如手写字辨认等;

3. 名誉评估;

4. 丈量市场营销的乐成度;

5. 猜测某个产物的收益;

6. 特定的某天是否会产生地动。

3.3 线性回归

线性回归是用于回归的,它不像Logistic回归那样用于分类,其根基头脑是用梯度降落法对最小二乘法情势的偏差函数举办优化,虽然也可以用normal equation直接求得参数的解,功效为:

呆板进修算法优弱点对等到选择(汇总篇) 

而在LWLR(局部加权线性回归)中,参数的计较表达式为:

呆板进修算法优弱点对等到选择(汇总篇) 

由此可见LWLR与LR差异,LWLR是一个非参数模子,由于每次举办回归计较都要遍历实习样本至少一次。

利益: 实现简朴,计较简朴。

弱点: 不能拟合非线性数据。

3.4 最近邻算法——KNN

KNN即最近邻算法,其首要进程为:

1. 计较实习样本和测试样本中每个样本点的间隔(常见的间隔怀抱有欧式间隔,马氏间隔等);

2. 对上面全部的间隔值举办排序(升序);

3. 选前k个最小间隔的样本;

4. 按照这k个样本的标签举办投票,获得最后的分类种别。

怎样选择一个最佳的K值,这取决于数据。一样平常环境下,在分类时较大的K值可以或许减小噪声的影响,但会使种别之间的边界变得恍惚。一个较好的K值可通过各类开导式技能来获取,好比,交错验证。其它噪声和非相干性特性向量的存在会使K近邻算法的精确性减小。近邻算法具有较强的同等性功效,跟着数据趋于无穷,算法担保错误率不会高出贝叶斯算法错误率的两倍。对付一些好的K值,K近邻担保错误率不会高出贝叶斯理论偏差率。

KNN算法的利益

1. 理论成熟,头脑简朴,既可以用来做分类也可以用来做回归;

2. 可用于非线性分类;

3. 实习时刻伟大度为O(n);

4. 对数据没有假设,精确度高,对outlier不敏感;

5. KNN是一种在线技能,新数据可以直接插手数据集而不必举办从头实习;

6. KNN理论简朴,轻易实现。

弱点

1. 样本不服衡题目(即有些类此外样本数目许多,而其余样本的数目很少)结果差;

2. 必要大量内存;

3. 对付样本容量大的数据集计较劲较量大(表此刻间隔计较上);

4. 样本不服衡时,猜测毛病较量大。如:某一类的样本较量少,而其余类样本较量多;

5. KNN每一次分类城市从头举办一次全局运算;

6. k值巨细的选择没有理论选择最优,每每是团结K-折交错验证获得最优k值选择。

KNN算法应用规模

文天职类、模式辨认、聚类说明,多分类规模

3.5 决定树

决定树的一大上风就是易于表明。它可以毫无压力地处理赏罚特性间的交互相关而且长短参数化的,因此你不必担忧非常值可能数据是否线性可分(举个例子,决定树能轻松处理赏罚好种别A在某个特性维度x的结尾,种别B在中间,然后种别A又呈此刻特性维度x前端的环境)。它的弱点之一就是不支持在线进修,于是在新样本到来后,决定树必要所有重建。另一个弱点就是轻易呈现过拟合,但这也就是诸如随机丛林RF(或晋升树boosted tree)之类的集成要领的切入点。其它,随机丛林常常是许多分类题目的赢家(凡是比支持向量机好上那么一丁点),它实习快速而且可调,同时你无须担忧要像支持向量机那样调一大堆参数,以是在早年都一向很受接待。

决定树中很重要的一点就是选择一个属性举办分枝,因此要留意一下信息增益的计较公式,并深入领略它。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读