加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

能够简化数据科学的6种工具

发布时间:2019-06-26 16:33:32 所属栏目:教程 来源:Peter Wayner
导读:新的器材绑缚了数据整理,拖放式编程以及云计较,可以辅佐任何认识电子表格的人充实操作数据科学的力气。 数据科学也许从来都不是那么轻易的,但它正变得越来越轻易深入。像呆板进修、回归和降维这样的术语固然依然和以往一样难以领略,可是人们正广泛但愿

假如你的数据集较大,RapidMiner也可以满意你的需求。那些拥有并行办理方案的人可以行使RapidMiner的拥有Hadoop和Hive集成的版本“Radoop”。尚有一个基于处事器的办理方案,可以从AWS,Azure或您本身的当地处事器设置云计较机。基于处事器的生态体系促进了与齐集的数据和说明存储库的协作,这些数据和说明可以布置在出产中交付陈诉和看法。

每种产物的订价模子都是独立的。桌面版有一个免费的社区版,但它穷乏两个最吸引人的特征:用于整理数据的TurboPrep和用于天生功效的AutoModel。一个低级版本的价值为每位用户每年2,500美元起,该版本的数据行数限定为100,000行。更大的数据集和陈设更多处理赏罚器的手段则必要更高的本钱。在办公场合安装本身版本的处事器器材起价为15,000美元,但你也可以在RapidMiner的云版本上购置行使时刻,起价为每小时6.75美元。

Knime

Knime是一个开源的数据说明平台,具有一个可视化的IDE,可以将各类数据处理赏罚和说明例程链接在一路。其焦点软件是免费宣布的,可是一些插件和扩展也有响应的贸易版本,而且用度首要用于支持开拓。你还可以行使在云中或你本身的计较机上运行的处事器版本。

该软件的基本是用Java编写的,以是Knime的很多集成都依靠于Java生态体系。用户大概会留意到Knime IDE是构建在Eclipse之上的,这使得Java开拓职员也许会越发认识它。该平台可以处理赏罚全部首要的数据库(MySQL,PostgreSQL)和云处事(Amazon Athena,Redshift)中的数据以及任何其他具有JDBC兼容毗连器的数据。Knime提供了一个与“数据库内处理赏罚”出格细密的集成,这可以加快你的事变。它还集成了下一代的漫衍式数据器材,如Apache Spark。

它拥有一个强盛的开源社区以支持大量的扩展和事变流程,可以自由行使,修改和定制,其大大都代码托管在GitHub或Bitbucket上。另外,它尚有大量的贸易扩展,并提供集成支持。

那些严峻依靠Google Web应用措施的公司也也许会喜好更深条理的集成。Knime可以读取和写入Google表格中的数据,这也是一种将数据说明引入常常行使Google电子表格的办公室的隐藏有用方法。

其企业处事器产物有三种规格,包罗了差异的特殊成果。低级版本支持5个用户和8个焦点,每年8500美元起,首要针对说明团队。而高级版本则应承你将功效分发给组织内的其他人。

Talend

Talend提供了一系列可以在桌面、当地数据中心或云中运行的应用措施。该公司的多层器材可以在转换数据并举办说明之前行使,它会从各个客栈和数据库中网络数据。譬喻,管道计划器提供了一个可视化计划器材,用于从各类数据源提取数据,然后可以行使尺度器材或Python扩展对其举办说明。

其开源版本可以在几个包中免费得到,好比open Studio for Data Quality和Stitch数据加载器。云计较版本的起售价为每位用户每月1,170美元,年度用户和局限更大的团队也可享受折扣。价值是按人数计较的,而不是基于耗损的计较资源。而Data Fabric的订价则是通过报价来完成的。

Looker

Looker对准的是那些常因太大都据源和太大都据版本而引起紊乱的用户。它的产物建设了一个靠得住准确的、受版本节制的数据来历,可以由下流的任何用户哄骗和绘制图表。从营业用户到后端开拓职员,每小我私人都可以建设本身的仪表板,个中可以包括按照小我私纪猱好设置的数据和图表。

该平台是环绕着开源天下的很多尺度而构建的。数据和代码可以在Git的节制下成长。仪表板可视化则来自D3。你可以行使LookML来从SQL数据库中网络数据,LookML是一种相同于通例呼吁式编程说话的自界说查询说话。

谷歌最近公布将收购Looker并将其集成到谷歌云中。这次收购将怎样影响该平台尚有待调查。其价值可按要求举办提供。

其他可以或许使数据更轻易会见的器材

上述器材并不是改变我们处理赏罚数据方法的独一选择。一些其他的器材僻静台也在集成相同的设法。首要的云计较公司也都提供了说明存储体系中数据的器材。譬喻,Azure的Databricks提供了用于设置Apache Spark的机动用户界面,而Data Factory则提供了一个用于提取,转换和加载全部数据的可视化器材。

一些器材会更偏重于呆板进修和其他情势的人工智能。亚马逊的SageMaker简化了构建、培训和陈设呆板进修流程的事变,在一个开放的市场上提供了100多种算法和模子。H20.ai则提供了他们所谓的“无人驾驶AI”,这是一个行使Apache Spark构建的开源平台,可以用来简化模子建设和说明。

以上这些都齐集在了一组器材集上,这些器材可以晋升我们试探数据的手段,让我们更清晰地领略全部数字的寄义。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读