数据工程师和数据科学家有什么不同
我们最近在Reddit上做了问答勾当。有个最常见的题目是数据科学家和数据工程师之间的区别。因此,我们想在这个主题上下写一篇文章来深入切磋下这个话题。 有许大都据专家的岗亭听起来没多大区别,行使的器材也很相同,我们很难知道种种地位应该包袱什么样的职责。另外,较小的公司也许会受限于他们礼聘的数据工程师或数据科学家的人数,这便意味着许多时辰特定的使命和方针也许会开始殽杂。 上述使得明晰区分这两个脚色变得越发坚苦。因此,我们想通过接头数据工程师和数据科学家所拥有的差异方针,思想模式,器材和配景来相识两个地位的差异之处。 在我们接头差别之前,我们想做一个快速的弁言。究竟是,许大都据科学家和数据工程师将执行其他技能脚色的使命。数据科学家也许必要开拓ETL,数据工程师也许必要开拓API和前端。因此,我们在下面指出的区别只是为了弄清晰技能差别在那边。
方针 数据工程师的方针更偏重于使命和开拓。数据工程师构建自动化体系和模子数据布局,以应承有用地处理赏罚数据。这意味着数据工程师的方针是建设和开颁发格和数据管道,以支持说明仪表板和其他数据客户(如数据科学家、说明师和其他工程师)。它与大大都工程师相似。为了可以或许执行最终的使命,必要举办大量的计划、假设、限定和开拓。每个计划息争决方案都有本身的一组限定,纵然它们都可以执行最终使命。 对比之下,数据科学家每每更存眷题目。从这个意义上说,他们正在探求低落本钱/增进利润、改进客户体验或营业服从的要领。这意味着他们必要问题目,然后答复题目(问题目,假设,然后得出结论)。以是他们必要问的题目好比,什么影响了病人的再入院,假如增进A vs. B,顾主会花更多钱吗,有没有更快的递送包裹的蹊径?跳过剩下的进程。这里的方针是找到题目的谜底。这也许是一个最终的结论或更多的题目。在整个进程中,数据科学家说明、网络支持,并可以得出题目的结论。 器材 这就是工作会变得紊乱的处所。数据科学家和数据工程师凡是都依靠于python和SQL。然而,这两个技能脚色行使这些手艺的方法各不沟通。同样,这与心态的差别有关。Python是一种很是结实的说话,它具有辅佐打点操纵使命和说明使命的库。 数据科学家将行使panda和Scikit Learn这样的库,而数据工程师将行使python来打点管道。这就是像airflow和Luigi这样的图书馆派上用场的处所。 相同地,数据科学家查询将是出格存眷的(譬喻,存眷题目)。而数据工程师的查询将齐集于整理和转换数据。 此刻,数据专家还可以行使其他器材。这包罗Tableau, Jupyter条记本和其他一些。说到底,区别在于他们怎样行使它们。 配景 此刻,当谈到数据工程师和数据科学家之间的差别时,另一个常见的题目是必要什么样的配景。 数据工程和数据科学都必要对数据和编程有必然的相识。纵然是有限的范畴。然而,有一些区别超出了编程。出格是数据科学家。因为数据科学家更像研究职员,拥有以研究为基本的配景是一种上风。 这也许是在经济学、生理学、风行病学等规模。将研究配景、SQL、Python和精采的贸易意识团结起来,您就拥有了一位数据科学家。这些并不是一成稳固的。究竟上,我们碰着了一位得到多个学位的的数据科学家。大大都店主更倾向于雇佣至少拥有硕士学位的数据科学家,他的专业是技能或数学。 数据工程地位凡是不必要硕士学位。数据工程更多的是作为一名开拓职员。这必要更多的实践履历,而不是理论常识。以是得到硕士学位并不能提供沟通的代价。 一个例子 假设一家医疗保健公司的董事抉择,他们想要弄清晰怎样镌汰30天前再次入院的病人数目。从数据的角度来看,必要做几件事。 数据科学家必要弄清晰是什么差遣病人从头入院。这是他们将试图答复的题目。按照他们得出的结论,他们将与营业部分相助,拟定怀抱指标 。这些指标是怎样建设将由数据科学家获得谜底。 数据科学家和数据工程师有许多差异之处。他们有差异的方针和配景,但这就是两者配合操作的代价地址。数据工程师更多地存眷工程结实体系,这一究竟使得数据科学家可以或许轻松地查询数据并有用地说明数据。他们的相助搭档相关使公司从数据中得到代价。 本文转自雷锋网,如需转载请至雷锋网官网申请授权。 【编辑保举】
点赞 0 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |