加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

菜鸟数据科学家五大误区

发布时间:2019-01-18 05:43:25 所属栏目:教程 来源:Mags译
导读:你筹备好要成为一名数据科学家,起劲的介入Kaggle角逐和Coursera的讲座。固然这统统都筹备好了,可是一名数据科学家的现实事变与你所祈望的却是截然不同的。 本文研究了作为数据科学家新手的5个常见错误。这是由我在塞巴斯蒂安福卡德(Dr. Sbastien Foucaud
副问题[/!--empirenews.page--]

你筹备好要成为一名数据科学家,起劲的介入Kaggle角逐和Coursera的讲座。固然这统统都筹备好了,,可是一名数据科学家的现实事变与你所祈望的却是截然不同的。

本文研究了作为数据科学家新手的5个常见错误。这是由我在塞巴斯蒂安·福卡德(Dr. Sébastien Foucaud)博士的辅佐下一路完成的,他在指导和率领学术界与行业规模的年青数据科学家方面拥有20多年的履历。本文旨在辅佐你更好地为此后的现实事变做筹备。

菜鸟数据科学家五大误区

1、Kaggle成才论

菜鸟数据科学家五大误区

Source: kaggle.com on June 30 18.

你通过介入Kaggle角逐,操练了数据科学规模的各项手艺。假如你能把决定树和神经收集团结起来那就再好不外了。说真话,作为一个数据科学家,你不必要做那么多的模子融合。请记着,凡是环境下,你将花80%的时刻举办数据预处理赏罚,剩下的20%的时刻用于构建模子。

菜鸟数据科学家五大误区

作为Kaggle的一份子对你在许多方面都有辅佐。所用到的数据一样平常都是彻底处理赏罚过的,因此你可以花更多的时刻来调解模子。但在现实事变中,则很少会呈现这种环境。一旦呈现这种环境,你必需用差异的名目和定名法则来网络组装差异来历的数据。

做数据预处理赏罚这项费力的事变以及操练相干的手艺,你将会耗费80%的时刻。抓取图像或从API中网络图像,网络Genius上的歌词,筹备办理特定题目所需的数据,然后将其提供应条记本电脑并执行呆板进修生命周期的进程。能干数据预处理赏罚无疑会使你成为一名数据科学家,并对你的公司发生立竿见影的影响。

2、神经收集(Neural Networks)无所不能

在计较机视觉或天然说话处理赏罚的规模,深度进修模子优于其余呆板进修模子,但它们也有很明明的不敷。

菜鸟数据科学家五大误区

神经收集必要依靠大量的数据。假如样本很少,那么行使决定树或逻辑回归模子的结果会更好。神经收集也是一个黑匣子,众所周知,它们很难被表明和声名。假如产物认真人或主管司理对模子的输生发生了质疑,那么你必需可以或许对模子举办表明。这对付传统模子来说要轻易得多。

菜鸟数据科学家五大误区

正如詹姆斯·勒(James Le)在一个巨大的邮件中所叙述的那样,有很多优越的统计进修模子,本身可以进修一下,相识一些它们的优弱点,并按照用例的束缚来举办模子的现实应用。除非你正在计较机视觉或天然说话识此外专业规模事变,不然最乐成的模子很也许就是传统的呆板进修算法。你很快就会发明,最简朴的模子,如逻辑回归,凡是是最好的模子。

菜鸟数据科学家五大误区

来历:算法来自scikit-learn.org.

3、呆板进修是产物

在已往的十年里,呆板进修既受到了极大的吹嘘,也受到了很大的攻击。大大都的初创公司都宣称呆板进修可以办理实际中碰着的任何题目。

菜鸟数据科学家五大误区

来历:已往5年谷歌呆板进修的趋势

呆板进修永久都不该该是产物。它是一个强盛的器材,用于出产满意用户需求的产物。呆板进修可以用于让用户收到精准的商品保举,也可以辅佐用户精确地辨认图像中的工具,还可以辅佐企业向用户展收?代价的告白。

作为一名数据科学家,你必要以客户作为方针来拟定项目打算。只有这样,才气充实地评估呆板进修是否对你有辅佐。

4、夹杂因果和相干

有90%的数据约莫是在已往的几年中形成的。跟着大数据的呈现,数据对呆板进修从颐魅者来说已经变得越来越重要。因为有很是多的数据必要评估,进修模子也更轻易发明随机的相干性。

菜鸟数据科学家五大误区

来历: http://www.tylervigen.com/spurious-correlations

上图表现的是美国小姐的年数和被蒸汽、热气和发烧物体导致的命案总人数。思量到这些数据,一个进修算法会进修美国小姐的年数影响特定工具命案数目的模式。然而,这两个数据点现实上是不相干的,而且这两个变量对其余的变量没有任何的猜测手段。

当发明数据中的相关模式时,就要应用你的规模常识。这也许是一种相干性照旧因果相关呢?答复这些题目是要从数据中得出说明功效的要害点。

5、优化错误的指标

呆板进修模子凡是遵循火速的生命周期。起首,界说头脑和要害指标。之后,要原型化一个功效。下一步,不绝举办迭代改造,直到获得让你满足的要害指标。

菜鸟数据科学家五大误区

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读