加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

呆板进修的正则化是什么意思?

发布时间:2019-10-16 09:22:43 所属栏目:建站 来源:佚名
导读:常常在各类文章或资料中看到正则化,好比说,一样平常的方针函数都包括下面两项 个中,偏差/丧失函数勉励我们的模子只管去拟合实习数据,使得最后的模子会有较量少的 bias。而正则化项则勉励越发简朴的模子。由于当模子简朴之后,有限数据拟合出来功效的随机性

稀少矩阵指的是许多元素为0,只有少数元素长短零值的矩阵,即获得的线性回归模子的大部门系数都是0. 凡是呆板进修中特性数目许多,譬喻文本处理赏罚时,假如将一个词组(term)作为一个特性,那么特性数目会到达上万个(bigram)。

在猜测或分类时,那么多特性显然难以选择,可是假如代入这些特性获得的模子是一个稀少模子,暗示只有少数特性对这个模子有孝顺,绝大部门特性是没有孝顺的,可能孝顺细小(由于它们前面的系数是0可能是很小的值,纵然去掉对模子也没有什么影响),此时我们就可以只存眷系数长短零值的特性。这就是稀少模子与特性选择的相关。

L1正则化和特性选择

假设有如下带L1正则化的丧失函数:

呆板进修的正则化是什么意思?

个中J0是原始的丧失函数,加号后头的一项是L1正则化项,α是正则化系数。留意到L1正则化是权值的绝对值之和,J是带有绝对值标记的函数,因此J是不完全可微的。

呆板进修的使命就是要通过一些要领(好比梯度降落)求出丧失函数的最小值。当我们在原始丧失函数J0后添加L1正则化项时,相等于对J0做了一个束缚。令L=α∑w|w|,则J=J0+L,此时我们的使命酿成在L束缚下求出J0取最小值的解。

思量二维的环境,即只有两个权值w1和w2,此时L=|w1|+|w2|对付梯度降落法,求解J0的进程可以画出等值线,同时L1正则化的函数L也可以在w1w2的二维平面上画出来。

如下图:

呆板进修的正则化是什么意思?

图中等值线是J0的等值线,玄色方形是L函数的图形。

在图中,当J0等值线与LL图形初次相交的处所就是最优解。上图中J0与L在L的一个极点处相交,这个极点就是最优解。留意到这个极点的值是(w1,w2)=(0,w)。可以直观想象,由于L函数有许多『突出的角』(二维环境下四个,多维环境下更多),J0与这些角打仗的机率会宏大于与L其余部位打仗的机率,而在这些角上,会有许多权值便是0,这就是为什么L1正则化可以发生稀少模子,进而可以用于特性选择。

而正则化前面的系数α,可以节制L图形的巨细。α越小,L的图形越大(上图中的玄色方框);α越大,L的图形就越小,可以小到玄色方框只超出原点范畴一点点,这是最利益的值(w1,w2)=(0,w)中的w可以取到很小的值。

相同,假设有如下带L2正则化的丧失函数:

呆板进修的正则化是什么意思?

同样可以画出他们在二维平面上的图形,如下:

呆板进修的正则化是什么意思?

二维平面下L2正则化的函数图形是个圆,与方形对比,被磨去了棱角。因此J0与L相交时使得w1或w2便是零的机率小了很多,这就是为什么L2正则化不具有稀少性的缘故起因。

PRML一书对这两个图是这么表明的

呆板进修的正则化是什么意思?

上图中的模子是线性回归,有两个特性,要优化的参数别离是w1和w2,左图的正则化是L2,右图是L1。蓝色线就是优化进程中碰着的等高线,一圈代表一个方针函数值,圆心就是样本视察值(假设一个样本),半径就是偏差值,受限前提就是赤色界线(就是正则化那部门),二者相交处,步崆最优参数。

可见右边的最优参数只也许在坐标轴上,以是就会呈现0权重参数,使得模子稀少。

L2正则化和过拟合

拟合进程中凡是都倾向于让权值尽也许小,最后结构一个全部参数都较量小的模子。由于一样平常以为参数值小的模子较量简朴,能顺应差异的数据集,也在必然水平上停止了过拟合征象。

可以假想一下对付一个线性回归方程,若参数很大,那么只要数据偏移一点点,就会对功效造成很大的影响;但假如参数足够小,数据偏移得多一点也不会对功效造成什么影响,专业一点的说法是『抗扰下手段强』。

那为什么L2正则化可以得到值很小的参数?

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读