数据科学家“恐怖故事”

发布时间：2018-12-25 20:10:35 所属栏目：教程来源：大数据文摘

导读：大数据文摘出品编译：张秋玥、蒋宝尚笔墨语音转换圈内传播这么一则真假未知的故事：一个研究者花了数月(乃至数年)调解他/她的语音天生模子，使其语音样本听起来结果很是好。最后他们发明，他们从新到尾都误用统一语音文件举办实习，最终模子只是完全切合

我还算是荣幸的。我对标记检索题目举办的修复确实进步告终果，新体系确实获得了改造。数周的尝试最后都是竹篮吊水一场空，我还得跟同事表明我这个模子差点就上线运行害了全部客户，以及为啥我越危险这个模子线下准确度就越高。必需得说一句，他们最后只是大笑了一场这事儿就已往了，照旧很客套的。

下面是我学到的履历教导：

第一，不要信托任何人、任何工作。

谁都想抓住你的把柄，尤其是数据科学界。大大都题目会将猜测功效变得看起来糟糕许多，但偶然功效看起来照旧足够好且真实让人无法起困惑。现实上在说话建模规模，这是一个超等常见的题目。计较以及较量狐疑度阶段超多陷阱，极小的错误都时常可以或许进步尝试数字(而非低落!)。因此，这个规模的人对付证明的要求都很高;基于这个缘故起因，我提议在将模子推广之前你最许多几何在开源评估器材上试验试验。

第二，更不要信托你本身。

在我整个学术生活中，我很快就学到了我必要过度质疑任何我获得的功效，尽量我天性并非云云。我此刻会为了模子功效一连寻求外部意见，最好是行使一个完全差异的代码库。

第三，写简朴的防卫代码

不要自作智慧。你的代码应该跟你本人一样偏执，就算是条约里最小的细节有一点不符，你的模子都该立即引人注目地垮掉。每个措施员都必定经验过这样的事：阅读仓库跟踪到一段标注为“这就永久不应产生”的代码。大量数据被写入磁盘，乃至位翻转这种工作都时有产生。我早年有过一个出产体系，由于XML说明错误就直接瓦解了。磁盘上设置文件(措施自动天生的)看起来就像这样：

<item/> 
<item/> 
…相同的一百万行… 
<item/> 
<itel/> 
<item/> 
<item/> 
…再省略一百万行… 
<item/>

看到那边差异了嘛?我都等不及下一越日冕物质抛射勾当来让我们都酿成更锋利的措施员啦(译者注：这个作者只是在这里发泄怨气…)。

第四，不要信托你的代码，更不要信托你本身的数据处理赏罚手段。

想让你的数据堕落，要领超多的。纵然你只有1%的数据堕落，你的A/B测试功效也许也完全差池。好比，有些闻名收集数据集里的某些图片就是无法被某些图像理会器读取。假如你行使另一个理会器，可能你将这些图片计入分母，最后的功效城市与别人差异。很长一段时刻内，我都在评估功效内一再计入了某些测试图像，因此获得了压根不正确却看似很可信的数字功效。

第五，只管存心侵扰你的尝试。

把标签打乱，计较概率层面准确度。在1%的数据长举办实习，确保你太过拟合。更好的要领是：把你的模子交给别人，让他们本身上手行使。每个尝试室都有这么一个永久能第一时刻挂掉你美满代码的人。盯住他们就对啦!

这种对功效的有益的猜疑论也许是我在博士与非博士之间发明的品格上的最大区别。我们博士都担当过这样的冲击。追念起来，我很荣幸可以或许以这么一种忧伤又没有很不吻合的方法在职业生活早期收到惊奇，以确保我永久都警惕翼翼地举办研究。必需说不幸的是，数据科学界从来没有“幸福小事情”这种工作(西方公家绅士Bob Ross名言：世上没有“错误”一说，它们只是“幸福小事情”)。

相干报道：https://medium.com/s/story/no-happy-little-accidents-8663540763f8

【本文是51CTO专栏机构大数据文摘的原创译文，微信公家号“大数据文摘（ id: BigDataDigest）”】

大数据文摘二维码

戳这里，看该作者更多好文

【编辑保举】

怎样判定一个元素在亿级数据中是否存在？
小白上路？工程师转型？应届结业生？三种“第三者”的数据科学入行指南
万字长文揭秘：阿里怎样实现海量数据及时说明？
阿里巴巴的大数据之路：JStorm与Blink的成长史
2019年五大进攻情势和数据泄漏的八大猜测

【责任编辑：赵宁宁 TEL：（010）68476606】
点赞 0

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

教你如何安装ghost xp	深度技术Ghost xp系统
ghost xp sp3电脑公司	8187无线网卡驱动,教您