加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

为什么你不该该成为一名数据科学通才

发布时间:2018-11-21 11:07:21 所属栏目:教程 来源:大数据文摘
导读:大数据文摘出品 编译:周家乐、狗小白、蒋宝尚 数据科学家好像个个都是全才,他们常识面很广,即写的了代码,又说明的了营业,没事还能整个数学模子调调参数。 好像,数据科学家涉及的规模越广,越能突出数据科学这份职业的代价。 可是,环境恰好相反! 有
副问题[/!--empirenews.page--]

数据科学

大数据文摘出品

编译:周家乐、狗小白、蒋宝尚

数据科学家好像个个都是全才,他们常识面很广,即写的了代码,又说明的了营业,没事还能整个数学模子调调参数。

好像,数据科学家涉及的规模越广,越能突出数据科学这份职业的代价。

可是,环境恰好相反!

有着富厚的数据科学履历的SharpestMinds连系首创人Jeremie Harris汇报你,万万不要成为一个数据科学通才!

以下是他以第一人称的阐述,enjoy

我在公司帮新手筹划数据科学职业成长的时辰,凡是起首提议他们先去思量一下本身想成为什么样的数据科学家,而不是直接保举一个新的库或器材,可能一些写简历的能力给他们。

数据科学

这个题目之以是云云重要,是由于数据科学涉及太多方面,以至于很难被一小我私人完全把握。以是,对公司而言,与其雇一个什么都懂一点却不能干标人,不如雇佣那些专才。

你可以试想一下你是一家打算招聘数据科学家的公司。在你的脑海中险些存在一个必要寻求辅佐才气办理的详细的题目,该题目必要一些相等专业的技能常识和项目履历。譬喻,一些公司将简朴模子应用于大型数据集,一些公司将伟大模子应用于小型数据集,一些公司必要动态地逊??们的模子,尚有一些公司基础不行使传统的模子。

办理上面例子中的每一个题目所必要的手艺组合完全差异,而让人感想出格稀疏的是,每一个有志于数据科学的人获得的提议每每是一样的:“进修怎样行使Python,构建一些分类/回归/聚类的项目。”

着实,呈现这一征象的缘故起因是包罗我在内的圈内人造成的。由于在闲聊、博客帖子中,我们把过多的对象放到“数据科学”中。

为出产建一个矫健的数据通道?这是一个“数据科学题目”。缔造一种新型的神经收集?这是一个“数据科学题目”。

这每每导致有志于数据科学的人们失去对特定题目的深入研究,从而成为寻常之辈。要知道,人才市场上已经全是所谓的通才,他们很难再获得市场的青睐或取得打破。

可是,,假如你本身不清晰都有哪类常见题目必要你去深入研究,那你就很难停止流于清淡。

我们把圈内呈现的题目归结为以下五类:

1. 数据工程师

为什么你不该该成为一名数据科学通才

地位描写:处理赏罚大量数据的公司,并打点数据通道。这意味着,当必要时,你要能确保有用地从数据源网络和检索数据,并举办整理和预处理赏罚。

为什么它很重要:假如你只处理赏罚过相对小的(<5Gb)生涯为.csv或.txt文件的数据集,那么你也许很难领略为什么会有一些人的全职事变是构建和维护数据管道。

这里有几个缘故起因:

  • 一个50Gb的数据集对计较机的RAM来说太大了,以是你凡是必要其他要领将其输入到你的模子中。
  • 处理赏罚这么大局限的数据必要耗费大量时刻,而且常常必要冗余存储。打点数据的存储也必要专门的技能诀窍。

要求:你将行使的技能包罗Apache Spark、Hadoop和/或Hive,以及Kafka。你很也许还必要有一个踏实的SQL基本。

你要处理赏罚的题目听起来像:

“我怎样构建一个可以或许每分钟处理赏罚10000个哀求的数据管道?”

“怎样整理数据集而不消将其所有加载到RAM中?”

2. 数据说明员

数据说明

地位描写:将数据转换成可指导营业成长的贸易洞察力。你会是技能团队和贸易计谋、贩卖或营销团队的桥梁。数据可视化将成为你一般事变的重要构成部门。

为什么它很重要:纯技强职员凡是很难领略为什么数据说明员云云重要,但究竟是他们就是很重要。这些人必要将颠末实习和测试的模子和大量用户数据转换为让人易于领略的情势,以便按照数据说明结论计划营业计策。数据说明员辅佐确保数据科学团队不会挥霍时刻在不能提供营业代价的题目上面。

要求:你将行使的技能包罗Python、SQL、Tableau和Excel。你还必要成为一个好的雷同者。

你要处理赏罚的题目听起来像:

“什么驱动了用户的增添?”

“我们怎样向打点层表明,最近用户用度的增进会镌汰客户?”

3. 数据科学家

为什么你不该该成为一名数据科学通才

地位描写:整理和试探数据集,并做出有贸易代价的猜测。一般事变包罗实习和优化模子,并将它们陈设到出产中。

为什么它很重要:当你有一大堆数据,以至于人类无法理会,同时这些数据也很贵重以至于不能忽略它们时,你必要通过一些步伐从中提取一些可被接管的看法。这是数据科学家的根基事变:将数据转换成可被领略的结论。

要求:你将行使的技能包罗Python、scikit-learn、Pandas、SQL,也许尚有Flask、Spark和/或TensorFlow/PyTorch。一些数据科学地位纯粹是技能性的,可是大大都地位还必要你具有贸易脑子,这样你就不会老想着去办理没有人必要办理的题目。

你要处理赏罚的题目听起来像:

“我们到底有几多种差异范例的用户?”

“我们能成立一个模子来猜测哪些产物能卖给哪些用户吗?”

4. 呆板进修工程师

地位描写:成立、优化和陈设呆板进修模子到出产中。凡是必要把呆板进修模子看成API或组件来处理赏罚,把它们嵌入到全栈应用措施或硬件中,可是你也也许会被要求自行计划模子。

要求:行使的技能包罗Python、JavaScript、scikit-learn、TensorFlow / PyTorch(和/或企业级深度进修框架)和SQL或MongoDB(凡是用作app数据库)。

你要处理赏罚的题目听起来像:

“怎样将这种Keras模子集成到我们的Javascript应用措施中?”

“怎样镌汰保举体系的猜测时刻和猜测本钱?”

5. 呆板进修研究员

地位描写:探求新的要领来办理数据科学和深度进修中的挑衅性题目。没有现成的办理方案给你,必要本身去拟定。

要求:你将行使的技能包罗Python、TensorFlow/PyTorch和SQL。

你要处理赏罚的题目听起来像:

“我怎样才气进步我们模子的精确性,使之更靠近最新程度?”

“自界说优化措施有助于镌汰实习时刻吗?”

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读