加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

深度剖析:数据工程师vs数据科学家

发布时间:2019-03-02 12:30:41 所属栏目:教程 来源:yoku酱
导读:相识数据工程师和数据科学家之间的差别很是重要。 误解或不相识其差别,会导致团队在处理赏罚大数据时失败可能示意不及预期。 一个焦点的误解是每个地位各自的利益和瑕玷。 我以为,个中一些误解来历于描写数据科学家和数据工程师的图表。 图1.关于数据科学家
副问题[/!--empirenews.page--]

相识数据工程师和数据科学家之间的差别很是重要。 误解或不相识其差别,会导致团队在处理赏罚大数据时失败可能示意不及预期。

一个焦点的误解是每个地位各自的利益和瑕玷。 我以为,个中一些误解来历于描写数据科学家和数据工程师的图表。

深度分解:数据工程师vs数据科学家
图1.关于数据科学家和数据工程师太过简化的维恩图。 来自Jesse Anderson的插图

像图1这样的维恩图,太过简化了岗亭的伟大性,以及岗亭的区别之处。它使两个岗亭看上去可以交流。 是的,这两个岗亭都处理赏罚大数据。 不外,每个岗亭操作大数据,无论是缔造代价,照旧缔造数据管线的做法都是截然差异的。这种差别来自每个岗亭的根基手艺。

作甚数据科学家和数据工程师?

当我与组织机构相助,处理赏罚它们的团队架构时,我不消维恩图去描写一名数据工程师和一名数据科学家之间的相关。 我绘制的图如图2所示。

深度分解:数据工程师vs数据科学家
图2.表现数据科学家和数据工程师的焦点手段及其重叠手艺的图表。 Jesse Anderson和大数据研究所的插图

数据科学家的手艺

数学与统计学(偶然物理也可以)是数据科学家的焦点。 在基于这种数学配景,他们正建设高级说明手段。 他们通过将数学应用到极致来建设呆板进修模子和人工智能模子。

犹如软件工程一样,数据科学家将不得不与营业端举办交换。 这包罗充实相识规模,以得到洞察力。 数据科学家凡是认真说明数据以辅佐营业,这必要必然的贸易敏锐度。 最后,他们的功效必要以可领略的方法提供应营业方。这要求数据科学家有手段用口述和视觉功效的情势,与营业方交换那些伟大的功效和调查环境,以似的营业方可以或许领略而且基于此睁开决定。

关于数据科学家,我一言以概之的界说是:数据科学家是通过编程来强化他们的数学和统计配景手段来举办说明数据、缔造数学模子的人。

数据科学家的一个常见特性是,他们不得不选择了编程,以实现他们除了编程以外无法做到的工作。 当我与数据科学家攀谈时,他们常常向我倾吐的一件工作。 为了完成更伟大的说明,可能因为其他方面难以降服的题目,他们学会了怎样编程。 他们的编程和体系搭建手艺达不到你从措施员或数据工程师哪里会看到的程度 – 他们也没须要到达。

数据工程师的手艺

编程手段是数据工程师的焦点。这种手段配景凡是是Java,Scala或Python的编程履历。 他们的事变重点或专业手段首要在漫衍式体系和大数据方面。 数据工程师具有高级编程和体系构建手艺。

对付数据工程师,我对其一言以蔽之的界说是:数据工程师是在环绕大数据成立建设软件办理方案上具备专业手艺的人。

操作这些工程手艺,他们可以建设数据管线。 建设数据管线也许听起来很简朴或微不敷道,但在大数据这种局限上,这意味着将10-30种差异的大数据技能整合在一路。 更重要的是,数据工程师是领略并选择“得当处理赏罚某种事变的器材”的人。 数据工程师深入相识各类技能和框架,以及怎样将它们组合在一路以建设办理方案,从而使公司的营业流程具备数据管线。

在我的履历中,数据工程师只是最低限度地参加集群的运维(与此处接头有关数据工程师的说法相反)。 固然某些数据科学技能确实必要配置一个运维可能数据运维岗亭,不外绝大大都技能都没有。 就像大大都措施员一样,我不应承他们直接会见出产体系。 这首要是体系打点员或运维职员的事变。

重叠手艺

数据科学家和数据工程师手艺之间存在重叠。 然而,重叠永久产生在每小我私人手段的犯科则边沿。

例如说,这两个岗亭在“说明”上重叠了。 可是,数据科学家的说明手艺将远远高出数据工程师的说明手艺。 数据工程师可以执行一些根基到中级的说明,但很难举办数据科学家所做的高级说明。

数据科学家和数据工程师在编程手段上有所重叠。 不外,数据工程师的编程手艺远远超出了数据科学家的编程手艺。 让数据科学家建设数据管线早已阔别了他们手艺上风界线,但却是数据工程师的上风地址。 在这种环境下,这两个脚色是互补的,数据工程师对数据科学家的事变起支持浸染。

您会留意到,数据科学家和数据工程师之间还存在一个大数据方面的重叠。 通过更好地相识每个岗亭的手艺,您此刻可以更好的领略这种手艺重叠。 数据工程师行使他们的编程和体系构建手艺来建设大数据管线。 数据科学家操作他们越发有限的编程手艺,运用他们的高级数学手艺, 操作已经存在的数据管线建设高级数据产物。 “建设和行使”之间的这种差别,是在处理赏罚大数据时,团队失败可能示意不佳的焦点之处。一个团队,假如祈望他们的数据科学家建设数据管线,最后将会极其扫兴。

当机构把工作搞错了

不幸的是,一个机构误解每个岗亭的焦点手艺和地位脚色相等常见。一些机构以为数据科学家可以建设数据管线。 数据科学家可以将当场建设数据管线。 数据科学家建设数据管道的题目有几个方面。 请记着,数据科学家只是不得不进修编程和大数据。 他们是智慧的人,最终确实可以办理题目,但建设数据管线并不是他们的焦点竞争力。

从打点角度来看,数据科学团队将陷入逆境。 您将环视附近或听取其他团队的意见,并将他们的进度与本团队的进度举办较量。 看起来,仿佛数据科学团队基础没有产出,可能示意不佳。 这是一种基于对数据科学家焦点竞争力的误解,所发生的不公正的评估。

数据科学家从事数据工程

我见过公司要求数据科学家们做数据工程师所做的工作。 数据科学家的服从为20-30%。 数据科学家并不知道数据工程师所知道的工作。 建设数据管道并非易事 – 它必要高级编程手艺,大数据框架领略和体系建设。 这些不是平凡数据科学家所拥有的手艺。 数据科学家可以得到这些手艺; 然而,这段时刻的投资回报率(ROI)很是低。 不要误解我:数据科学家确实必要编程和大数据手艺,而不是数据工程师必要的程度。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读