加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

浅谈梯度降落法/Gradient descent

发布时间:2019-03-28 17:52:00 所属栏目:教程 来源:360技术
导读:当现代界,深度进修应用已经渗出到了我们糊口的方方面面,深度进修技能背后的焦点题目是最优化(Optimization)。最优化是应用数学的一个分支,它是研究在给定束缚之下怎样寻求某些身分(的量),以使某一(或某些)指标到达最优的一些学科的总称。 梯度降落法(G
副问题[/!--empirenews.page--]

当现代界,深度进修应用已经渗出到了我们糊口的方方面面,深度进修技能背后的焦点题目是最优化(Optimization)。最优化是应用数学的一个分支,它是研究在给定束缚之下怎样寻求某些身分(的量),以使某一(或某些)指标到达最优的一些学科的总称。

梯度降落法

梯度降落法(Gradient descent,又称最速降落法/Steepest descent),是无束缚最优化规模中汗青最久长、最简朴的算法,单独就这种算法来看,属于早就“过期”了的一种算法。可是,它的理念是其他某些算法的构成部门,可能说在其他某些算法中,也有梯度降落法的“影子”。譬喻,各类深度进修库城市行使SGD(Stochastic Gradient Descent,随机梯度降落)或变种作为其优化算法。

本日我们就再往返首一下梯度降落法的基本常识。

1. 名字释义

在许多呆板进修算法中,我们凡是会通过多轮的迭代计较,最小化一个丧失函数(loss function)的值,这个丧失函数,对应到最优化里就是所谓的“方针函数”。

在探求最优解的进程中,梯度降落法只行使方针函数的一阶导数信息——从“梯度”这个名字也可见一斑。而且它的本意是取方针函数值“最快降落”的偏向作为搜刮偏向,这也是“最速降落”这个名字的来历。

于是天然而然地,我们就想知道一个题目的谜底:沿什么偏向,方针函数 f(x) 的值降落最快呢?

2. 函数值降落最快的偏向是什么

先说结论:沿负梯度偏向

函数值降落最快。此处,我们用 d 暗示偏向(direction),用 g 暗示梯度(gradient)。

下面就来推导一下。

将方针函数 f(x) 在点浅谈梯度降落法/Gradient descent处泰勒睁开(在最优化规模,这是一个常用的本领):

高阶无限小 o(α)可忽略,因为我们界说了步长α>0(在ML规模,步长就是泛泛所说的learning rate),

因此,当浅谈梯度降落法/Gradient descent浅谈梯度降落法/Gradient descent即函数值是降落的。

此时浅谈梯度降落法/Gradient descent就是一个降落偏向。

可是浅谈梯度降落法/Gradient descent详细便是什么的时辰,可使方针函数值降落最快呢?

数学上,有一个很是闻名的不等式:Cauchy-Schwartz不等式(柯西-许瓦兹不等式)①,它是一个在许多场所都用得上的不等式:

当且仅当:

时等号创立。

由Cauchy-Schwartz不等式可知:

当且仅当浅谈梯度降落法/Gradient descent时,等号创立,浅谈梯度降落法/Gradient descent最大(>0)。

以是,浅谈梯度降落法/Gradient descent浅谈梯度降落法/Gradient descent最小(<0),f(x) 降落量最大。

以是,浅谈梯度降落法/Gradient descent是最快速降落偏向。

3. 弱点

它真的如它的名字所描写的,是“最快速”的吗?从许多经典的最优化书本你会相识到:并不是。

究竟上,它只在局部范畴内具有“最速”性子;对整体求最优解的进程而言,它让方针函数值降落很是迟钝。

4. 感觉一下它是怎样“慢”的

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读