浅谈梯度降落法/Gradient descent

发布时间：2019-03-28 17:52:00 所属栏目：教程来源：360技术

导读：当现代界，深度进修应用已经渗出到了我们糊口的方方面面，深度进修技能背后的焦点题目是最优化(Optimization)。最优化是应用数学的一个分支，它是研究在给定束缚之下怎样寻求某些身分(的量)，以使某一(或某些)指标到达最优的一些学科的总称。梯度降落法(G

副问题[/!--empirenews.page--]

当现代界，深度进修应用已经渗出到了我们糊口的方方面面，深度进修技能背后的焦点题目是最优化(Optimization)。最优化是应用数学的一个分支，它是研究在给定束缚之下怎样寻求某些身分(的量)，以使某一(或某些)指标到达最优的一些学科的总称。

梯度降落法

梯度降落法(Gradient descent，又称最速降落法/Steepest descent)，是无束缚最优化规模中汗青最久长、最简朴的算法，单独就这种算法来看，属于早就“过期”了的一种算法。可是，它的理念是其他某些算法的构成部门，可能说在其他某些算法中，也有梯度降落法的“影子”。譬喻，各类深度进修库城市行使SGD(Stochastic Gradient Descent，随机梯度降落)或变种作为其优化算法。

本日我们就再往返首一下梯度降落法的基本常识。

1. 名字释义

在许多呆板进修算法中，我们凡是会通过多轮的迭代计较，最小化一个丧失函数(loss function)的值，这个丧失函数，对应到最优化里就是所谓的“方针函数”。

在探求最优解的进程中，梯度降落法只行使方针函数的一阶导数信息——从“梯度”这个名字也可见一斑。而且它的本意是取方针函数值“最快降落”的偏向作为搜刮偏向，这也是“最速降落”这个名字的来历。

于是天然而然地，我们就想知道一个题目的谜底：沿什么偏向，方针函数 f(x) 的值降落最快呢?

2. 函数值降落最快的偏向是什么

先说结论：沿负梯度偏向

函数值降落最快。此处，我们用 d 暗示偏向(direction)，用 g 暗示梯度(gradient)。

下面就来推导一下。

将方针函数 f(x) 在点浅谈梯度降落法/Gradient descent 处泰勒睁开(在最优化规模，这是一个常用的本领)：