加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

我,一个数据科学家的三大瑕玷

发布时间:2018-11-19 17:54:32 所属栏目:教程 来源:大数据文摘
导读:大数据文摘出品 编译:李雷、韦梦夙、胡笳 假如说当代事变口试教会了我们什么,那就是你最大的瑕玷是什么?的正确答复是我事变太全力了。 显然,真的要去评论我们的瑕玷是很荒诞好笑的,我们为什么要提我们做不到的工作?固然事变申请和LinkedIn不勉励我们披
副问题[/!--empirenews.page--]

我,一个数据科学家的三大瑕玷

大数据文摘出品

编译:李雷、韦梦夙、胡笳

假如说当代事变口试教会了我们什么,那就是“你最大的瑕玷是什么?”的正确答复是“我事变太全力了。”

显然,真的要去评论我们的瑕玷是很荒诞好笑的,我们为什么要提我们做不到的工作?固然事变申请和LinkedIn不勉励我们披露我们的瑕玷,但假如我们从不认可我们的弱点,那么我们就无法采纳法子来办理它们。

要想在格斗中变得更好着实很简朴:

  • 确定你今朝的题目:找出弱点
  • 弄清晰你要的方针:拟定实现的打算
  • 执行打算T媚课一小步

但我们很少执行第一步:出格是在技能规模,我们老是用已知的手艺静心苦干,而不是进修那些可以使事变更轻松可能得到新机遇的新手艺。自我反思 - 客观地评估本身 - 看起来仿佛是一个不干系的观念,可是假如能退一步,弄清晰我们奈何能把工作做得更好或更有用,这对付在任何规模取得前进都至关重要。

思量到这一点,我试图客观地审阅本身,并确定3个全力偏向以使我成为更好的数据科学家:

  • 软件工程
  • 扩展数据科学
  • 深度进修

我写这篇文章的目标有三。

  • 起首,我真的想变得更好,以是我必要认可我的瑕玷。我的目标是通过归纳综合我的不敷以及怎样纠正它们,让本身有动力完成我的进修方针。
  • 其次,我但愿勉励其他人思索他们也许不相识的手艺以及他们奈何得到这些手艺。你不必像我这样写篇文章来果真哪些对象你不会,可是假如你可以找到一项新手艺来进修,那么花点时刻思量这个题目是值得的。
  • 最后,我想汇报你,要成为一名乐成的数据科学家并不必要什么都知道。数据科学/呆板进修的课题险些是无限无尽的,但现实上你能相识的有限。不管那些脆而不坚的求职简历是怎么写的,你不必要完全相识每个算法(或有5到10年的事变履历)才气成为一名职业数据科学家。我常常从初学者哪里听到他们被本身以是为必学的课题数目压得不堪重负,而我的提议老是一样的:从基本开始,而且大白你不必要知道全部的统统!

我,一个数据科学家的三大瑕玷

对付每个瑕玷,我已经做了概述以及我今朝正在做的改造。确定一小我私人的弱项很重要,但拟定如改造的打算也很重要。进修一项新手艺必要时刻,但打算一系列小而详细的步调会大大增进你乐成的机遇。

软件工程

我最初的数据科学实践履历是在学术情形中得到的,之后我一向试图停止重拾某些以学术方法来研究数据科学的坏风俗。个中包罗编写仅运行一次的代码,缺乏文档,编写没有同一气魄威风凛凛且难以阅读的代码以及硬编码某些特定值。全部这些做法都反应了一个根基方针:开拓一个数据科学办理方案,该办理方案只针对特定命据集做一次性事变,以便撰写论文。

个中一个典范的例子是我们的一个项目行使构筑能源数据,最初每隔15分钟收罗一次,但当我们以5分钟为增量开始收罗数据时,发明措施完全瓦解了,由于稀有百个处所把收罗隔断写死为15分钟。我们不能简朴地查找和替代,由于这个隔断参数被写成许多种名字,如electricity_interval,timeBetweenMeasurements或dataFreq。没有一个研究职员思量过代码的可读性或输入变量的机动性。

对比之下,从软件工程的角度来看,代码必需行使大量差异的输入举办普及测试,有精采的文档,在现有框架内事变,并遵守编码尺度,以便其他开拓职员可以或许领略。尽量我很是想这样做,但我无意也会像数据科学家而不是像软件工程师那样编写代码。我开始思索巨大的与平凡的数据科学家之间的区别是在于行使软件工程最佳老例编写代码 - 假如你的模子不足结实或不得当整个架构,则不会被陈设 - 此刻我正在实行作育本身像计较机科学家一样思索。

凡是,对付技能手艺的进修来说没有比实践更好的要领。荣幸的是,在我今朝的事变中,我可以或许同时为我们的内部器材和开源库做出孝顺。这也迫使我得到了很多实践机遇,包罗:

  • 编写单位测试
  • 遵循编码气魄威风凛凛指南
  • 编写可以变动参数的函数
  • 完备的代码文档
  • 让其他人做代码检察
  • 重构代码使其更简捷,更易于阅读

纵然对付尚未有现实事变履历的数据科学家,你也可以通过协作参加开源项目得到这样的履历。另一个获取靠得住编码实践的好要领是在GitHub上阅读风行库的源代码(Scikit-Learn是我的最爱之一)。得到其他人的反馈也至关重要,因此你可以找一个社区并向那些比你更有履历的人寻求提议。

像软件工程师一样思索必要改变你的思想模式,但假如你可以或许慢下来并紧记这些做法,那么实践他们并不坚苦。譬喻,每当我发明本身在Jupyter Notebook 中复制和粘贴代码并变动一些值时,我会试着停下来并意识到我不如行使函数来取代拷贝粘贴的代码,由于从久远来看这会让我更有服从。固然我对这些老例的实践还不算极致,但我发明它们不只让其他人更轻易阅读我的代码,并且还更轻易扩展我的事变。比起写代码,我们更多时辰是在阅读代码,因此你将来会谢谢这些文档和同一的编程气魄威风凛凛。

除了编写那些大型代码库的代码顶用到这些,我如故会僵持遵循部门老例。编写数据说明的单位测试对付数据科学家来说也许看起来很稀疏,可是当您真正必要开拓测试以确保代码按预期事变时,这是很好的做法。另外,尚有很多器材可以搜查您的代码是否遵循编码气魄威风凛凛(我如故在全力办理要害字参数周围的无空格的题目)。

我,一个数据科学家的三大瑕玷

总有处所可以改造(在Sublime Text 3里行使pylint)

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读