加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

5个免费工具,让数据科学更加简单

发布时间:2019-03-03 23:16:36 所属栏目:教程 来源:IT168企业级
导读:数据科学有一个很大的利益是,数据科学家行使的很多最先辈的器材都是免费的。究竟上,业内免费器材的数目已经很是之大,偶然乃至会让人头疼,不知该怎样选择。为了辅佐各人确定本身该选择哪些器材,这里列出了用于数据处理赏罚的五个值得相识的免费软件器材。

数据科学有一个很大的利益是,数据科学家行使的很多最先辈的器材都是免费的。究竟上,业内免费器材的数目已经很是之大,偶然乃至会让人头疼,不知该怎样选择。为了辅佐各人确定本身该选择哪些器材,这里列出了用于数据处理赏罚的五个值得相识的免费软件器材。

5个免费器材,让数据科学越发简朴

Photo by rawpixel.com from Pexels

Anaconda Distribution

Python之以是成为数据科学规模的一个巨大器材,是由于有大量开拓职员构建了基于Python的数据科学库。对付行使Python完成事变的数据科学家来说,诸如NumPy、SciPy、panda、scikit-learn等库是必不行少的。不幸的是,纵然对付履历最富厚的开拓者来说,处理赏罚全部这些Python库也是一个挑衅。它们也许很难安装,并且很多都依靠于Python之外的某个软件。

Anaconda是一个免费的Python刊行版和包揽理器,它办理了这个题目。Anaconda Python刊行版预先安装了高出200个最风行的数据科学Python库,而且它的包揽理器提供了一种简朴的方法来安装高出2000个特另外包,且无需担忧软件依靠相关。Anaconda还附带很多其他风行的器材,包罗Jupyter Notebook——它使数据科学家可以或许在基于赏识器的情形中交互事变。

RStudio & RStudio Server

RStudio是一个集成开拓情形(IDE),是为在R说话中执行交互式数据说明和矫正式的编程而定制的。RStudio为交互式事变情形提供了一个美满的均衡,它支持R节制台和数据可视化面板,以及成果一切的文本编辑器,该文本编辑器可以实现语法高亮表现和代码补全。

一个不太为人所知的器材是RStudio Server,它是RStudio IDE的一个成果完备的版本,运行在处事器上,可以通过赏识器会见。这意味着您可以通过收集毗连从任那里所会见RStudio IDE,并将计较转移到专用资源上。这使得数据科学家可以处理赏罚隐藏的敏感数据,而不必将其下载到小我私人装备上,也可以在任何装备上用R执行伟大且计较劲大的事变。

OpenRefine

OpenRefine最初由谷歌的工程师开拓,是一种用于数据整理的开源器材。它应承从颐魅者读取紊乱或破坏的数据,执行批量转换以修复错误,并天生干净的数据,并以一系列有效的名目导出功效。

OpenRefine的最佳特征之一是,它可以或许跟踪在数据集上执行的每个操纵,使步调跟踪和事变流的从头建设变得很是轻易。当您有很多文件都具有沟通的数据完备性题目,而且必要沟通的转换时,这尤其有效。OpenRefine应承导出对第一个数据文件所做的变动序列,并将其应用于第二个数据文件,从而节减一再事变的时刻并低落工钱操纵呈现错误的也许性。

OpenRefine还提供了很是强盛的器材来处理赏罚缭乱的文本字段。譬喻,假如数据齐集有一列的条目是“Vancouver, BC”。、“VANCOUVER BC”和“vancouver b.c.”, OpenRefine的文本聚类器材就会辨认出它们也许是沟通的,并执行批量转换,以便对每个变乱应用单个标签。

Apache Airflow

在大大都组织中,数据并不是存留在一个处所,,也不是只行使一种要了解见的。凡是有多个数据库、数据存储体系、API和其他历程,来跟踪整个组织中的数据。数据团队的首要事变是将数据从存留的位置移动到必要举办说明的位置,并按照必要举办转换。抱负环境下,这项事变应该尽也许自动化,Apache Airflow可以完成此事。

Airflow是Airbnb的工程师为内部行使开拓的,2015年开源。它是一个映射、自动化和调治伟大事变流的器材,这些事变流涉及了很多具有彼此依靠相关的差异体系。它可以监控这些流程是否乐成,并在呈现题目时提示工程师。Airflow尚有一个基于Web的用户界面,它将事变流暗示为一个小功课收集,这样依靠相关就可以很轻易地实现可视化。

H2O

跟着呆板进修技能的成熟,一些根基算法获得了普及的应用。广义线性模子、基于树的模子和神经收集都已成为呆板进修器材包中的根基元素。然而,尽量R和Python中那些算法的很多实现对付原型计划和观念验证很是有效,但它们并不能很好地扩展到出产情形中。

H2O是一个开源器材,它提供了最风行的统计和呆板进修算法的高效和可扩展实现。它可以毗连到很多差异范例的数据存储体系,可以在包罗从条记本电脑到大型计较集群的任何装备上运行。它拥有强盛和机动的器材,来构建模子原型并举办微调,并且在H2O中构建的模子很是易于陈设到出产情形中。最重要的是,H2O有Python和R的API,因此数据科学家可以无缝地将其与现有情形集成。

今朝数据科学规模的软件器材不可胜数,在项目启动时,选择足够优越的免费器材来加快和优化数据流程是一个不错的选择。

原文来历:BrainStation

【编辑保举】

  1. 2019中国国际大数据财富展览会将于5月26日-29日在贵阳进行
  2. 深度分解:数据工程师vs数据科学家
  3. 数据科学太难?这些陷阱请避开,正能量很重要!
  4. 一文看懂大数据规模的六年巨变
  5. 数据科学最终迁徙到云端的5个缘故起因
【责任编辑:武晓燕 TEL:(010)68476606】
点赞 0

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读