加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

这些数据科学家必备的技能,你拥有哪些?

发布时间:2019-03-27 15:54:31 所属栏目:教程 来源:虎说八道翻译
导读:1.教诲配景 88%的数据科学家受过高档教诲且拥有硕士学位,个中46%拥有博士学位。固然有些人是破例,但凡是必要很是强盛的教诲配景才气拥有成为数据科学家所必须的常识深度。要想成为数据科学家,你可以先得到计较机科学、社会科学、物理科学和统计学的学士
副问题[/!--empirenews.page--]

1.教诲配景

88%的数据科学家受过高档教诲且拥有硕士学位,个中46%拥有博士学位。固然有些人是破例,但凡是必要很是强盛的教诲配景才气拥有成为数据科学家所必须的常识深度。要想成为数据科学家,你可以先得到计较机科学、社会科学、物理科学和统计学的学士学位,最常见的是数学和统计学(32%),其次是计较机科学(19%)和工程学(16%),任何这些课程的学位都可觉得你提供处理赏罚和说明大数据所需的手艺。

这些数据科学家必备的手艺,你拥有哪些?

完成学位课程后,大大都数据科学家还举办在线培训,譬喻进修怎样行使Hadoop或大数据查询等非凡手艺。除教室进修外,你还可以通过构建应用措施或试探数据说明来操练你在教室上学到的常识,以便你相识更多信息。

2.R编程

对付数据科学家来说,R的至少是全部说明器材最应该深入相识器材,由于R专为满意数据科学需求而计划。你可以行使R来办理数据科学中碰着的任何题目,究竟上,43%的数据科学家正在行使R来办理统计题目。然而,R有一个陡峭的进修曲线。假如你已经把握了某种编程说话,那么就会更难进修。不外不要担忧,互联网上尚有许多资源可以辅佐你开始行使R,譬喻Simplilearn的R编程说话数据科学培训,它是有幻想的数据科学家的重要资源。

技能手艺:计较机科学

3.Python编码

Python是得当数据科学家进修的一种优越编程说话,也是我在数据科学脚色中看到的最常见的编码说话,个中尚有Java,Perl或C/C ++。O'Reilly曾经观测过数据科学家,观测的受访者中有40%行使Python作为他们的首要编程说话。

因为python的多成果性,你可以将其用于数据科学进程中涉及的险些全部步调。它可以回收各类名目标数据,同时可以轻松地将SQL表导入代码中,而且还应承你建设数据集,这样你就可以在Google上找到所需的任何范例的数据集。

4.Hadoop平台

固然这个不是硬性要求,但在很多环境下它长短常有效的,拥有Hive或Pig的履历也是一个很好的加分项。CrowdFlower对3490个LinkedIn上数据科学事变者举办的一项研究发明Apache Hadoop被评为数据科学家第二重要手艺。

作为数据科学家,你也许会碰着这样的环境,即你拥有的数据量高出体系内存或必要将数据发送到差异的处事器,这时Hadoop就能施展其浸染了。你可以行使Hadoop快速将数据传输到各类体系上的点。同时你还可以行使Hadoop举办数据试探、数据过滤、数据采样和汇总。

5.SQL数据库/编码

尽量NoSQL和Hadoop已经成为数据科学的一个重要构成部门,但大大都人照旧但愿可以或许在SQL中编写和执行伟大查询。SQL(布局化查询说话)是一种编程说话,可以辅佐你执行添加,删除和从数据库中提取数据等操纵。它还可以辅佐你执行说明成果和转换数据库布局。

作为数据科学家,你必要能干SQL,由于SQL可以专门用于辅佐你会见和处理赏罚数据。当你行使它来查询数据库时你会发明,它简捷的呼吁可以辅佐你节减时刻并镌汰执行坚苦查询所需的编程量。进修SQL将辅佐你更好地领略相关数据库并晋升你作为数据科学家的形象。

6.Apache Spark

Apache Spark正在成为环球最受接待的大数据技能。它就像Hadoop一样是一个大数据计较框架,独一的区别是Spark比Hadoop更快。这是由于Hadoop必要读取和写入磁盘,这使得速率变慢,但Spark将其计较缓存在内存中。

Apache Spark专为数据科学而计划,它可以辅佐更快地运行伟大的算法。它尚有助于数据科学家处理赏罚伟大的非布局化数据集,你可以在一台呆板或一组呆板上行使它。Apache spark使数据科学家可以或许防备数据科学中的数据丢失。Apache Spark的上风在于其速率僻静台,这使得开展数据科学项目变得轻易。借助Apache spark,你可以执行从数据收罗到漫衍式计较的说明。

7.呆板进修和AI

大量数据科学家并不能干呆板进修规模和技能,这包罗神经收集,强化进修,反抗性进修等。假如你想从其他数据科学家中脱颖而出,你必要相识呆板进修技能,如监视呆板进修、决定树、逻辑回归等。这些手艺将辅佐你办理基于首要组织功效猜测的差异数据科学题目。

数据科学必要应用于呆板进修的差异规模。Kaggle在个中一项观测中发明,一小部门数据专业职员具备先辈的呆板进修手艺,如监视呆板进修、无监视呆板进修、时刻序列、天然说话处理赏罚、非常值检测、计较机视觉、保举引擎、强化进修和反抗性进修。

8.数据可视化

贸易天下常常发生大量数据,这些数据必要被翻译成易于领略的名目。与原始数据对比,人们可以更天然地以图表和图形的情势领略数据,常言道:“一张图片赛过千言万语”。

作为数据科学家,你必需可以或许借助数据可视化器材(如ggplot,d3.js和Matplottlib以及Tableau)可视化数据。这些器材将辅佐你将项目中的伟大功效转换为易于领略的名目。题目是,许多人不相识序列相干性或p值,你必要直观地向他们展示这些术语在功效中的暗示。

数据可视化使组织有机遇直接处理赏罚数据,,他们可以快速把握而且辅佐他们在竞争中抓住新商机。

9.非布局化数据

数据科学家可以或许处理赏罚非布局化数据至关重要。非布局化数据是未界说的内容,不得当数据库表,个中包罗视频、博客文章、客户评述、交际媒体帖子、音频等。对这些范例的数据举办排序很坚苦,由于它们没有逻辑可言。因为其伟大性,大大都人将非布局化数据称为“暗中说明”。行使非布局化数据可以辅佐你显现对决定有效的洞察力。作为数据科学家,你必需可以或许领略和哄骗来自差异的平台的非布局化数据。

非技能手艺

10.好奇心

“我没有非凡才气。我只是布满好奇心。”-爱因斯坦。

毫无疑问,你最近也许多次看到过这句话,由于它与数据科学家有关。一位资深数据科学家描写过它的寄义,并在几个月前的博客中将其视为须要的“软手艺。

好奇心可以被界说为得到更多常识的愿望。作为数据科学家,你必要可以或许提出有关数据的题目,由于数据科学家耗费约莫80%的时刻来发明和筹备数据。这是由于数据科学规模是一个成长很是快的规模,你必需进修更多以跟上节拍。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读