深度剖析:数据工程师vs数据科学家
在数据管线建设中,相对来说业余的数据科学家也会遇到这种题目:数据科学家会在选择器材上失足误、举办错误的选择,而数据工程师则不会。 数据科学家凡是不清晰可能不领略处理赏罚一个使命所必要的吻合器材。对付全部使命都行使单一器材(每每是一个错误的器材),最终把统统都搞砸。实际环境是,为了处理赏罚差异的事变,必要很多差异的器材。 及格的数据工程师会知道这些,数据科学家凡是不会知道这些。 最近的一个例子是,数据科学家行使Apache Spark处理赏罚几十GB数据集。 简直,Spark可以处理赏罚这么大都据。 可是,一个小型数据措施会更快,也会执行的更好。他们的Spark使命必要10-15分钟才气执行,然而小数据的相关型数据库只必要0.01秒来完成同样的工作。 在这种环境下,数据科学家不甚美满地办理了这个题目,但却不大白这项事变的正确器材是什么。 在一天内完成这种耗损15分钟时刻的事变16次,(这是低端的数据说明),你的数据科学家天天就要花四个小时守候,由于他们正在行使错误的器材来完成这个使命。 在另一个机构中,他们的数据科学家没有任何数据工程资源。 数据科学家会处理赏罚这些题目,直到他们碰着无法办理的数据工程题目而且卡住。 他们向营业部分陈诉说,他们无法完成使命,就在哪里让事变只完成了一半就停了下来。这导致数据科学家们截至到谁人时候都在挥霍时刻,而且据他们预计,就只由于无法完成事变,数百万美元的代价在哪里悬而未决。 假如让一位数据科学家做数据工程师事变,一个更令人忧虑的示意是数据科学家会感想沮丧并告退。 我在很多机构中,和处理赏罚数据工程师事变的许大都据科学家攀谈过。 对话老是一样的 :数据科学家诉苦他们来公司是为了从事数据科学事变,而不是数据工程事变的。 他们把工作做完就必要完成数据工程事变,但让数据科学家做数据工程师的事变会让他们发狂。 他们会选择告退,而您将会必要用3-6个月的时刻来完成数据工程。 我在另一篇文章中更多地接头了这些题目。 数据工程师与数据科学家的比率 抉择命据工程师和数据科学家的比率是一个常见题目。在确定这个比率时,常见必要思量的题目包罗数据管线有多伟大,数据管线有多成熟,以及数据工程团队必要拥有几多履历。 拥有比数据工程师更多的数据科学家凡是是个题目。 它凡是意味着,机构正在让他们的数据科学家举办数据工程事变。 正如我之前所说的,这会进而导致各类百般的题目。 为每个数据科学家搭配2-3位数据工程师是一个常见设置。 对付一些具有更伟大数据工程要求的机构,这个数字可所以每个数据科学家配备4-5名数据工程师。 这包罗那些数据工程和数据科学处于差异讲述组织布局中的机构。 您必要更多的数据工程师,由于建设数据管线必要比建设ML / AI部门耗费更多的时刻和精神。 我在《数据工程团队》一书中,更多地接头了数据工程和数据科学团队应该怎样彼此交换。 数据工程师从事数据科学研究 一个远很是见的环境是数据工程师开始举办数据科学事变。 跟着数据工程师开始进步他们的数学和统计手艺,这是一个向上的敦促力。 跟着数据科学变得越发尺度化,这种向上的敦促力变得越来越广泛。 它导致了一种全新的工程师范例呈现。 对呆板进修工程师的需求 让我们直面这个究竟:数据科学家来自学术配景。 他们凡是拥有博士学位或硕士学位。 题目在于,他们甘愿写一篇关于题目的论文,而不是将某些对象投入出产。 其他时辰,他们的编程手段只会扩展到在R中建设一些对象。把用R编写的对象放到出产中自己就是一个题目。 他们不像工程师那样思索怎样成立体系。 数据科学家面对的一样平常题目是,他们不是将事变投入出产、建设数据管线以及果真这些AI / ML功效的工程师。 为了应对学术思想与“投入出产的需求”之间的差别,我们调查到了一种新型的工程师。 此刻,这位工程师大多可以在美国看到。他们的头衔是呆板进修工程师。
呆板进修工程师首要来自数据工程配景。 他们经验了足够多的交错培训,变得同时纯熟把握数据工程和数据科学。 一种不常见的途径是数据科学家在数据工程方面举办交错实习。 对呆板进修工程师,我一言以蔽之的界说是:呆板进修工程师是坐在数据科学和数据工程的十字路口,而且纯熟把握数据工程和数据科学两方面的人。 如图2所示,您也许想知道在数据科学与数据工程之间存在的差距里会产生什么。 这正是呆板进修工程师所处的位置,如图3所示。它们是数据工程师建设的数据管线与数据科学家所缔造对象之间的桥梁。 呆板进修工程师认真获取数据科学家发明或缔造的内容,并使其在出产情形中施展代价(值得留意的是,数据科学家建设的大部门内容并非在出产上有代价, 而且大部门被用能力拼集起来可以或许事变)。 呆板进修工程师的事变,首要是建设数据科学管线的最后一步。 这也许必要几个部门。 它也许是将数据科学家的代码从R / Python重写为Java / Scala。 它也许是从软件工程的角度优化ML / AI代码,担保数据科学家写的代码可以或许运行精采(可能爽性就是可以或许运行)。 呆板进修工程师具有足够的工程配景,可以在一个规模(数据科学)保障所必须的工程类型,这些规模以并不遵循精采的工程道理而著称。 在出产情形中运行的模子必要维护和输入,而平凡的软件并不必要。 呆板进修模子也许过期,并开始给出不正确或扭曲究竟的功效。 这也许来自数据属性的改变,新数据的增进,或恶意性子的进攻。 无论是哪种方法导致的,呆板进修工程师都必要时候留意他们的模子中必要修改的部门,这也许导致模子的从头实习或调解。 呆板进修工程师和数据工程师 数据工程师向呆板进修工程师的过渡是一个迟钝的进程。 坦白来讲,我们将看到,酿成呆板进修工程师必要作出什么变革和酿成数据科学家必要作出什么变革长短常相似的。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |