一文详解数据科学家的必备手艺(附进修资源)
副问题[/!--empirenews.page--]
数据科学家必要涉猎的常识面很广,包罗:呆板进修、计较机科学、统计学、数学、数据可视化、雷同和深度进修,那么数据科学家应怎样拟定他们的进修预算,才气最大限度地满意店主的必要? 我赏识了一些求职网站,想找出哪些手艺是数据科学家最必要把握的手艺,并对平凡数据科学手艺以及特定的说话和器材的非凡手艺别离做了一些研究。2018年10月10日,我在LinkedIn,Indeed,SimplyHired,Monster上搜刮了求职名单,下面这个图表,表现了每个网站列出的数据科学家地位的数量。 通过阅读这些地位清单,颠末一番观测研究,我找出了数据科学家最常用的手艺。像“打点”这样的术语没有举办较量,由于它们在地位清单中被太多的上下文所引用。 全部搜刮都是用“数据科学家”这个要害字在美国本土举办的,回收准确匹配搜刮的话,会使得搜刮功效的数目大为镌汰。准确匹配搜刮确保了搜刮功效均与数据科学家的地位相干,并受到相同搜刮前提的影响。 AngelList列出了必要数据科学家的上市公司的数目,而不是列出了数据科学家地位数目。我将AngelList从这两种说明中解除,由于它的搜刮算法好像是一种OR(或)范例的逻辑搜刮,没有将其转换为AND(与)逻辑。 假如你搜刮的要害字是 “数据科学家”“ TensorFlow”,那么只会列出必要数据科学家的公司,AngelList的搜刮结果不错。可是假如你的要害词是“数据科学家” “react.js”,它会返回很多必要非数据科学家公司的列表。 Glassdoor 也被解除在我的说明之外。该网站声称,它在美国有26263个“数据科学家”地位,但能让我看到的地位不高出900个。另外,数据科学家的地位数目不行能高出其他首要平台的三倍以上。最后的说明中包罗了在LinkedIn上列出400多个平凡手艺和200多个非凡手艺,虽然这个中会有一些交错。 功效记录在下面链接的Google Sheet表格中。我下载了.csv文件并将它们导入JupyterLab中。然后,计较出了百分比,并在地位列表网站上对它们举办了均匀计较。 Google Sheet表格链接:https://docs.google.com/spreadsheets/d/1df7QTgdAOItQJadLoMHlIZH3AsQ2j2_yoyvHOpsy9qU/edit?usp=sharing 我还将软件的计较功效与JupyterLab针对2017年上半年纪据科学家地位列表举办了较量。团结KDNuggets’ usage survey的信息,好像有些手艺变得越来越重要,而另一些则变得越来越不重要。我们一会儿再谈。 KDNuggets’ usage survey https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html/2 请参阅我的Kaggle Kernel以得到交互式图表和其他的说明。我用Plotly对数据举办可视化。在编写这篇文章时,对行使JupyterLab的Ploly呈现了一些争论-指令在我的Kaggle Kernel的末了的Plotly’s docs之中。 Plotly’s docs https://github.com/plotly/plotly.py 平凡手艺 以下是店主最常搜刮的数据科学家手艺图表。 功效表白,说明和呆板进修是数据科学家事变的焦点。从数据中网络有效信息是数据科学的首要成果。呆板进修的所有内容是建设体系来猜测机能,这个需求很是大。 数据科学必要统计学和计较机科学手艺——这一点也不稀疏。统计学、计较机科学和数学也都是大学的专业,也许有助于加大它们呈现的频度。 风趣的是,在近一半的地位列表中提到了雷同,数据科学家必要可以或许交换看法并与他人密合适作。 人工智能和深度进修不像其他术语那样频仍呈现。然而,它们是呆板进修的子集。深度进批改被越来越多的呆板进修使命所行使,而这些使命早年是由其他算法完成的。譬喻,对付大大都天然说话处理赏罚题目,最好的呆板进修算法都是当前的深度进修算法。我估量,在将来,人们将越发明晰地寻求深度进修手艺,而呆板进修将成为深度进修的代名词。 店主们都在探求把握哪些特定的软件器材的数据科学家?接下来我们来办理这个题目。 技能手艺 店主们正在探求的具备以动手艺的数据科学家,个中名列前20位的特定说话、库和技能器材如下。 我们来简腹地看看最常见的技能手艺。 1. Python Python是最受接待的说话。这种开源说话的受接待水平已广为所知。初学者轻易接管,并且有许多支持资源。绝大大都新的数据科学器材都与它兼容。Python是数据科学家的首要说话。 2. R R不逊于 Python,它曾经是数据科学的首要说话。我惊奇地看到它今朝如故很受接待。这种开源说话的来源在于统计学,它今朝如故很受统计学家的接待。Python或R对付险些每一个数据科学家地位来说都是必需的。 3. SQL SQL也很受接待。SQL是布局化查询说话,是与相关型数据库交互的首要方法。在数据科学规模,SQL偶然会被忽视,可是假如您规划进入就业市场,这是一项值得展示的手艺。 4. Hadoop和Spark 接下来是Hadoop和Spark,它们都是Apache提供的用于大数据的开源器材。Apache Hadoop是一个开源的软件平台,用于漫衍式存储和漫衍式处理赏罚由贸易硬件构建的计较机集群上的大型数据集。 Apache Spark是一个快速、内存数据处理赏罚引擎,它具有优雅的、有示意力的开拓API,使数据事变者可以或许高效地执行必要快速迭代会见数据集的流、呆板进修或SQL事变负载。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |