浅谈梯度降落法/Gradient descent
副问题[/!--empirenews.page--]
当现代界,深度进修应用已经渗出到了我们糊口的方方面面,深度进修技能背后的焦点题目是最优化(Optimization)。最优化是应用数学的一个分支,它是研究在给定束缚之下怎样寻求某些身分(的量),以使某一(或某些)指标到达最优的一些学科的总称。 梯度降落法(Gradient descent,又称最速降落法/Steepest descent),是无束缚最优化规模中汗青最久长、最简朴的算法,单独就这种算法来看,属于早就“过期”了的一种算法。可是,它的理念是其他某些算法的构成部门,可能说在其他某些算法中,也有梯度降落法的“影子”。譬喻,各类深度进修库城市行使SGD(Stochastic Gradient Descent,随机梯度降落)或变种作为其优化算法。 本日我们就再往返首一下梯度降落法的基本常识。 1. 名字释义 在许多呆板进修算法中,我们凡是会通过多轮的迭代计较,最小化一个丧失函数(loss function)的值,这个丧失函数,对应到最优化里就是所谓的“方针函数”。 在探求最优解的进程中,梯度降落法只行使方针函数的一阶导数信息——从“梯度”这个名字也可见一斑。而且它的本意是取方针函数值“最快降落”的偏向作为搜刮偏向,这也是“最速降落”这个名字的来历。 于是天然而然地,我们就想知道一个题目的谜底:沿什么偏向,方针函数 f(x) 的值降落最快呢? 2. 函数值降落最快的偏向是什么 先说结论:沿负梯度偏向 函数值降落最快。此处,我们用 d 暗示偏向(direction),用 g 暗示梯度(gradient)。 下面就来推导一下。 将方针函数 f(x) 在点 高阶无限小 o(α)可忽略,因为我们界说了步长α>0(在ML规模,步长就是泛泛所说的learning rate), 因此,当 此时 可是 数学上,有一个很是闻名的不等式:Cauchy-Schwartz不等式(柯西-许瓦兹不等式)①,它是一个在许多场所都用得上的不等式: 当且仅当: 时等号创立。 由Cauchy-Schwartz不等式可知: 当且仅当 以是, 以是, 3. 弱点 它真的如它的名字所描写的,是“最快速”的吗?从许多经典的最优化书本你会相识到:并不是。 究竟上,它只在局部范畴内具有“最速”性子;对整体求最优解的进程而言,它让方针函数值降落很是迟钝。 4. 感觉一下它是怎样“慢”的 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |