加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

像数据科学家一样思索:12步指南(上)

发布时间:2019-04-12 03:25:52 所属栏目:教程 来源:虎说八道译
导读:先容 今朝,数据科学家正在受到许多存眷,因此,有关数据科学的书本正在激增。我看过许多关于数据科学的书本,在我看来他们中的大大都更存眷器材和技能,而不是数据科学中渺小题目的办理。直到我碰着Brian Godsey的像数据科学家一样思索,它接头了哪些器材
副问题[/!--empirenews.page--]

先容

今朝,数据科学家正在受到许多存眷,因此,有关数据科学的书本正在激增。我看过许多关于数据科学的书本,在我看来他们中的大大都更存眷器材和技能,而不是数据科学中渺小题目的办理。直到我碰着Brian Godsey的“像数据科学家一样思索”,它接头了哪些器材最有效以及为什么,但首要方针是在智能,高效和乐成的环境下完成数据科学工程,以办理现实数据中心题目的办理方案。

数据科学项目标生命周期

在书中,Brian提出数据科学项目包罗3个阶段:

  • 第一阶段是筹备阶段:在项目开始时网络信息所耗费的时刻和精神可以停止往后的贫困。
  • 第二阶段是构建产物:从筹划到执行,行使你在筹备阶段学到的常识以及可以用的全部器材。
  • 第三阶段即将完成:交付产物,得到反馈,举办修订,产物运维以及完成项目。
4ab46be1dbd80c64fc10e98ff96ec7cb8abe5c76

从图像中可以看出,这3个阶段包括12个差异的使命。我想用这篇文章总结这12个步调,由于我信托任何有幻想的数据科学家都可以从认识它们中受益。

第一阶段:筹备

数据科学项目始于筹备。你必要成立你所知道的、拥有的、能获得什么、你在那边以及你想成为什么样。最后一个是最重要的,数据科学项目必要有目标和响应的方针。只有当你有了明晰的方针时,才气开始观测可用资源以及实现这些方针的全部也许性。

1-设定方针

27ce9039adb9c6439815c989952c2870e101be14

数据科学项目与很多其他项目一样,首要方针应在项目开始时设定。在设定方针后,你所做的全部事变都是操作数据、统计数据和编程来实现这些方针。

起首,数据科学的每个项目都是有一个“客户”的。偶然,“客户”是向你或你的企业付出用度的人,譬喻,客户或承包署理商。在学术界,“客户”也许是一位要求你说明数据的尝试室科学家。偶然,“客户”是你的老板或其他同事。无论“客户”是谁,他们城市对也许从你哪里获得的对象抱有一些祈望。

为了领略这些祈望,你必要对“客户”提供的数据提出好的题目。提出好的题目是一项重要且玄妙的挑衅,由于改变天下的是题目。在他们的假设中好的题目是详细的,但好的谜底是可权衡的并且不须要太多的本钱。

固然偶然辰好题目、相干数据或富有洞察力的说明比其他要素更轻易得到,但这三者对付得到有效的谜底至关重要。任何旧题目,数据和说明的产物并不老是一个谜底。值得留意的是,你必要在项目标每个步调中都要深图远虑,并且要害性的要素必需存在。譬喻,假如你个好题目但不相干的数据,则很难找到谜底。

开始的时辰是在数据和谜底的配景下评估项目方针的好机缘。凡是,初始方针的设定必要思量一些贸易目标。假如你不从事贸易勾当,譬喻,你正在举办研究,那么目标凡是是对功效举办一些外部行使,譬喻在特定规模中推进科学常识或为其他人提供说明器材。

固然方针源于项目自己的配景,但每个方针都应该通过基于数据科学的适用过滤器来实现。此过滤器包罗以下几个题目:(1)有什么也许?(2)什么是有代价的?(3)什么是有用的?将此过滤器应用于好题目、也许的谜底、可用数据和可预见的障碍,可以辅佐你实现一系列靠得住、有代价且高效的项目方针。

2-试探数据

2dafe0afb3d734483778a286d1a8e38baaa0f3c3

数据科学项目筹备阶段的第二步是试探现稀有据。下图表现了数据科学家也许会见数据的3种根基方法。数据可所以文件体系上的文件,数据科学家可以将文件读入他们最喜好的说明器材中。数据也可以在数据库中,数据库也在文件体系上,可是为了会见数据,数据科学家必需行使数据库的接口,这是一个辅佐存储和提取数据的软件层。最后,数据也许位于应用措施编程接口(API)之后,API是数据科学家与某些体系之间的软件层。

认识数据也许必要打仗到表单以及怎样查察和操纵这些表单,以下是个中一些:平面文件(csv,tsv)、HTML、XML、JSON、相关数据库、非相关数据库、API。偶然你无法抉择选择哪种名目,数据会以你想象不到的名目呈现,但你必需处理赏罚它。假如你发明某个名目服从低下、鸠拙或不受接待,你可以实行配置也许使工作变得更轻易的帮助数据存储名目,但必要耗费大量时刻和精神来配置帮助数据市肆。但对付会收服从至关重要的应用措施而言,这个本钱是值得的。对付较小的项目,大概不是。当你达到哪里时,你必需越过那座桥。

此刻你已经相识了常见的数据情势,你必要对它们举办侦察。以下是你应该思量的要领:Google搜刮,组合差异的数据源,从收集爬虫或自行网络它们。就小我私人而言,我是收集爬虫的忠实粉丝。Web scraper必需做的两件重要工作是以编程方法会见大量URL并从页面中捕捉正确的信息。假如你想在Facebook上相识你的伴侣收集,理论上可以编写一个脚原来会见全部伴侣的Facebook小我私人资料,生涯小我私人资料页面,然后理会这些页面以获取他们的伴侣列表,会见他们的伴侣设置文件等等。

3-数据清算

2df70f3734022636cb7af6f6353b9830b13e2e68

第三步是数据清算,就是将坚苦、非布局化或其他恣意名目获取数据和信息转换为传统软件可以行使的内容的进程。清算不是一项使命,并不行以事先精确地划定步调,由于每个案例都差异,必要办理的题目也纷歧样。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读