出神入化：特斯拉AI主管、李飞飞高徒Karpathy的33个神经网络「炼丹」技巧

发布时间：2019-04-30 11:22:38 所属栏目：建站来源：机器之心编译

导读：Andrej Karpathy 是深度进修计较机视觉规模、天生式模子与强化进修规模的研究员。博士时代师从李飞飞。在读博时代，两次在谷歌演习，研究在 Youtube 视频上的大局限特性进修，2015 年在 DeepMind 演习，研究深度强化进修。结业后，Karpathy 成为 OpenAI 的

副问题[/!--empirenews.page--]

Andrej Karpathy 是深度进修计较机视觉规模、天生式模子与强化进修规模的研究员。博士时代师从李飞飞。在读博时代，两次在谷歌演习，研究在 Youtube 视频上的大局限特性进修，2015 年在 DeepMind 演习，研究深度强化进修。结业后，Karpathy 成为 OpenAI 的研究科学家，后于 2017 年 6 月插手特斯拉接受人工智能与自动驾驶视觉总监。

今天他宣布的这篇博客能为深度进修研究者们提供极为明了的洞见，在 Twitter 上也激发了极大的存眷。

入迷入化：特斯拉AI主管、李飞飞高徒Karpathy的33个神经收集「炼丹」能力

1. 谁说神经收集实习简朴了?

许多人以为开始实习神经收集是很轻易的，大量库和框架号称可以用 30 行代码段办理你的数据题目，这就给各人留下了(错误的)印象：实习神经收集这件事长短常简朴的，差异模块即插即用就能搭个深度模子。

简朴的建模进程凡是如下所示：

>>> your_data = # plug your awesome dataset here 
>>> model = SuperCrossValidator(SuperDuper.fit, your_data, ResNet50, SGDOptimizer)# conquer world here

这些库和示例令我们想起了认识尺度软件及模块，尺度软件中凡是可以获取简捷的 API 和抽象。

譬喻 Request 库的行使展示如下：

>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass')) 
>>> r.status_code200

酷!这些库和框架的开拓者背负起领略用户 Query 字符串、url、GET/POST 哀求、HTTP 毗连等的大量需求，将伟大度潜匿在几行代码后头。这就是我们认识与等候的。

然而，神经收集纷歧样，它们并不是现成的技能。我在 2016 年撰写的一篇博客中试图声名这一点，在那篇文章中我以为反向撒播是「leaky abstraction」，然而此刻的环境好像越发糟糕了。

Backprop + SGD 不是邪术，无法让你的收集运行;批归一化也无法事迹般地使收集更快收敛;RNN 也不能神奇地让你直接处理赏罚文本。不要由于你可以将本身的题目暗示为强化进修，就以为你应该这么做。假如你僵持在不领略技能道理的环境下去行使它，那么你很也许失败。

2. 背着我不 work 的神经收集

当你粉碎代码可能错误设置代码时，你凡是会获得某种非常。你在本来应该插入字符串的处所插入了整数;导入堕落;该要害字不存在……另外，为了利便 debug，你还很也许为某个成果建设单位测试。

这还只是开始。实习神经收集时，有也许全部代码的句法都正确，但整个实习就是差池。也许题目呈此刻逻辑性(而不是句法)，且很难通过单位测试找出来。

譬喻，你实行截丧失度而不是梯度，这会导致实习时代的非常值被忽视，但语法或维度等检测都不会呈现错误。又可能，你弄错了正则化强度、进修率、衰减率、模子巨细等的配置，那么荣幸的话收集会报错，然而大部门时辰它会继承实习，并冷静地变糟……

因此，「快速剧烈」的神经收集实习方法没有效，只会导致坚苦。此刻，这些履历性坚苦是使神经收集正常运行的拦路虎，你必要越发周密细致地调试收集才气镌汰坚苦，必要大量可视化来相识每一件事。

在我的履历中，深度进修乐成的重要身分是耐性和注重细节。

怎样办理

基于以上两点究竟，我开拓了一套将神经收集应用于新题目的特定流程。该流程严重地执行了上述两项原则：耐性和注重细节。

详细来说，它凭证从简朴到伟大的方法来构建，我们在每一步都对即将产生的事作出精确的假设，然后用尝试来验证假设可能观测直到发明题目。我们试图极力阻止大量「未履历证的」伟大性一次来袭，这有也许导致永久也找不到的 bug/错误设置。假如让你像实习神经收集那样写它的代码，你会想行使很是小的进修率，然后揣摩，再在每次迭代后评估整个测试集。

1. 梳理数据

实习神经收集的第一步是不要碰代码，先彻底搜查本身的数据。这一步很是要害。我喜好用大量时刻赏识数千个样本，领略它们的漫衍，探求个中的模式。荣幸的是，人类大脑很善于做这件事。有一次，我发明数据中包括一再的样本，尚有一次我发明白破坏的图像/标签。我会查找数据不平衡和毛病。我凡是还会留意本身的数据分类进程，它会显现我们最终试探的架构。好比，只必要局部特性就够了照旧必要全局语境?标签噪声多大?

另外，因为神经收集是数据集的压缩/编译版本，你可以或许查察收集(错误)猜测，领略猜测从那边来。假如收集猜测与你在数据中发明的纷歧致，那么必然是什么处所出题目了。

在你对数据有了一些感知之后，你可以写一些简朴的代码来搜刮/过滤/排序标签范例、标注局限、标注数目等，并沿恣意轴可视化其漫衍和非常值。非常值凡是可以或许显现数据质量或预处理赏罚中的 bug。

2. 设置端到端实习/评估架构、获取基线功效

此刻我们已司领略了数据，那我们就可以开始构建高峻上的多标准 ASPP FPN ResNet 并实习强盛的模子了吗?虽然还不到时辰，这是一个布满波折的阶梯。我们下一步必要构建一个完备的实习、评估架构，并通过一系列尝试确定我们瞄精确率的置信度。

在这个阶段，你们最好选择一些不会堕落的简朴模子，譬喻线性分类器或很是精简的 ConvNet 等。我们但愿实习这些模子，并可视化逊?ю失、模子猜测和其余怀抱指标(譬喻精确率)。虽然在这个进程中，我们还必要基于一些明晰假设，从而执行一系列比较尝试(ablation experiments)。

该阶段的一些能力与留意事项：

牢靠随机 seed：始终行使牢靠的随机 seed 能担保许多属性，譬喻在我们两次运行沟通代码时能获得沟通的输出。这能消除变革因子，从举办公道的判定。
简化：确保禁用不须要的能力。譬喻，在这个阶段必定必要封锁数据加强。数据加强可以在后期引入，并作为一种强盛的正则化计策。不外在这个阶段引入的话，它就有机遇带来一些愚笨的 bug。
行使大都据、少次数的验证评估：当我们在绘制测试丧失时，我们必要在整个较量大的测试齐集执行评估。不要过几个批量就绘制一次测试丧失，然后再依靠 TensorBoard 的滑腻处理赏罚。我们固然追求的是精确率，但也要防备犯这些初级错误。
在初始化中验证丧失：验证你的丧失函数在初始化中有较量公道的丧失值。譬喻，假如你正确地初始化最终层，那么你应该通过-log(1/n_classes) 怀抱初始化的 Softmax 值。L2 回归和 Huber 丧失函数等都有沟通的默认值。
优越的初始化：正确地初始化最终层。譬喻，假如你正在对均值为 50 的一些数据做回归处理赏罚，那么初始化的最终偏置项就应该为 50。假如你有一个非均衡数据集(两类样本数 1：10)，那么就必要在 logits 上配置偏置项，令模子在初始化时猜测概率为 0.1。正确设置这些偏置项将加速收敛速率，由于收集在前面屡次迭代中根基上只在进修偏置。
人类基线功效：监控丧失值等其他怀抱指标(譬喻精确度)，这些指标应该是人类能表明并搜查的。尽也许评估你本身(人类)得到的精确率，并与构建的模子做比拟。可能对测试数据举办两次标注，个中一次为猜测值，另一次为标注值。
独立于输入的基线功效：实习一个独立于输入的基线模子，譬喻最简朴的要领就是将全部输入都配置为 0。这样的模子应该比现实输入数据示意更差，你的模子是否筹备好从任何输入中抽取任何信息?
在批数据上过拟合：在单个批数据上使得过拟合(两个或多个少样本)。为此，我们必要增进模子拟合手段，并验证我们能到达的最低丧失值(即 0)。我还想在统一张图中表现标签和猜测值，并确保丧失值一旦到达最小，它们就能美满地对齐了。
验证逊?ю失的降落：在这一阶段，你也许但愿在数据集上实现欠拟合，该阶段的模子应该是极简的。然后我们实行增进一点模子的拟合手段，再看看逊?ю失是否轻微降落了一些。
在输入收集前可视化：在运行模子之前，我们必要可视化数据。也就是说，我们必要可视化输入到收集的详细数据，即可视化原始张量的数据和标签。这是独一的「真实来历」，我有许多次都是由于这个进程而节减了大量时刻，并显现了数据预处理赏罚和数据加强进程中的题目。
可视化猜测进程：我喜畛刳实习进程中对一个牢靠的测试批数据举办模子猜测的可视化。这展示了猜测值怎样变革的进程，能为我们提供关于实习进程的优越直觉。许多时辰，假如收集以某种方法小幅度颠簸，那么模子最也许在实行拟合数据，这也展示了一些不不变性。太低或太高的进修率也很轻易留意到，由于发抖量较量大。
行使反向撒播绘制依靠性：你的深度进修代码凡是包罗伟大的、矢量化的、Boardcast 操纵。一个常见的 bug 是，人们会有时间行使 view 而不是 transpose/permute，从而殽杂了批量数据中的维度信息。然而，你的收集如故可以正常实习，只不外它们学会忽略了其余样本中的数据。一种 debug 的要领是将某些样本 i 的丧失配置为 1.0，然后运行反向撒播一向到输入，并确保第 i 个样本的梯度不为零。更一样平常的，梯度为我们提供了收集中的依靠性相关，它们在 debug 中很是有效。
一样平常化非凡案例：这是一种更为通用的代码能力，可是我常常看到人们在行使这些能力时会新发生 Bug，尤其是在从新构建一样平常函数时。相反，我喜好直接写很是详细的函数，它只包括我此刻必要做的工作。我会先让这个函数能 work，然后再一样平常化好函数，并确保能取得沟通的功效。凡是这个进程会表此刻向量化代码中，我会先用轮回编写某个进程，然后再一次一个轮回地将它们转化为向量化化代码。

3. 过拟合

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/5

尾页

SEO排名难做的四大原因	在保持网站优化的同时
网站SEO优化的几个技巧	网站原创内容怎么写？