[收藏] 值得关注的12大开源大数据分析应用软件
数据发掘与数据说明 本文来自51CTO快译,先容的这些开源器材是大数据处理赏罚、贸易智能、呆板进修和猜测说明等规模的佼佼者。 对付很多大企业来说,开源大数据说明已经成为一般营业中一个必不行少的构成部门。据New Vantage Partners公司对《财产》1000强公司的高层主管开展的观测表现,现在62.5%的企业在出产情形中至少运行一种大数据器材或应用软件。这比2013年给出同样回覆的企业数目跨越近一倍,只有5.4%的受访企业没有大数据打算。 说到大数据说明,开源软件是常态,而不是异数。很多企业行使的一些领先器材由Apache基金会打点,很多贸易器材至少一部门基于这些开源办理方案。 我们在本文中先容了市面上12款顶尖的开源数据说明办理方案,个中一些为大数据说明提供了全面的端到端平台,另一些要与其他技能团结起来。它们都得当大企业行使,都是市面上领先的数据说明器材。 1. Hadoop 谈到开源数据说明技能,就不行能不提到Hadoop。Apache基金会的这个项目已经险些成为大数据的同义词,它让企业可以或许大局限漫衍式处理赏罚极其复杂的数据集。TDWI和SAS连系开展的一项观测发明,近60%的企业估量在2016年年底之前会在出产情形中拥有Hadoop集群。? 然而值得一提的是,Hadoop自己无法实现数据说明。它凡是是从大数据获取洞察力的整个更复杂办理方案的一部门。 2. Spark ?Spark也是Apache旗下的一个项目,它理睬可以敏捷处理赏罚大数据。现实上,它声称“在内存中运行措施的速率比Hadoop MapReduce快100倍,在磁盘上运行水平的速率快10倍”。 ?因为这种精彩机能,它经常用于说明流式数据或用于必要交互式说明成果的应用软件中。很多公司常常把它与Hadoop或Mesos一路行使,不外它也能独立运行。最近,它的人气获得了急剧晋升,Syncsort在2016年开展的一项观测发明,受访的企业大数据事恋职员中近70%对Spark有乐趣。 3. Talend 不像前面两个项目,Talend由一家营利公司打点,而不是由基金会打点。因而,提供收费付出处事。Talend既提供免费产物,又提供收费产物。它免费的开源办理方案名为Talend Open Studio,下载量已高出了200万人次。? 市场研究公司Gartner最近将Talend评为数据集陋习模的“率领者”。这家公司声称,对比与之竞争的办理方案,它辅佐企业说明大数据的速率快五倍,而本钱却只有五分之一。 4. Jaspersoft 与Talend一样,Jaspersoft也有多个版本,有的版本免费,有的版本收费。社区版是免费、开源的,而Reporting版、AWS版、专业版和企业版必要收费,不外随带支持处事。? Jaspersoft是一款开源贸易智能器材,旨在让企业用户可以借助自助处事,满意本身的要求。该公司声称,它的技能支持130000多款应用软件,提供嵌入式贸易智能成果。 5. Pentaho Pentaho自诩为“全面的数据集成和贸易智能平台。”该公司首要大力大举倾销它的贸易版软件,该软件基于开源社区版。 很多公司将它与Hadoop和Spark之类的器材一路行使,以便可以或许陈诉和表现大数据。该软件声称拥有一大批的知名客户,包罗英国电信(BT)、卡特皮勒、纳斯达克、美国疆域安详部、美国国度海洋和大气局(NOAA)、《纽约时报》、EMC及其他很多企业组织。 6. RapidMiner RapidMiner声称是“头号开源数据科学平台”,Gartner将它评为高级说明魔力象限陈诉中的率领者。它可以或许实现自助式猜测说明,理睬有望晋升速率飞快的机能。 用户包罗宝马、汉莎航空、达美乐比萨公司、索尼、福特、Salesforce、国际特赦组织和通用电气公司。整个RadiMiner平台包罗三个独立的组件:RapidMiner Studio、RapidMiner Server和RapidMiner Radoop。这三个组件都回收开源容许证或贸易容许证,贸易版价值取决于用户数目。 7. Storm Apache Storm被雅虎、推特、Spotify、Yelp、Flipboard和Groupon之类的公司所行使,它是一种及时大数据处理赏罚引擎。? ?它的官方网站表明:“Storm让用户很轻易靠得住地处理赏罚无穷制的数据流,它在及时处理赏罚方面的成果比如Hadoop在批处理赏罚方面的成果。”客户可以将它与任何数据库或任何编程说话一路行使。它具有可扩展、容错、易于部门行使的利益。然而用户要留意的是,Storm还没有进入到1.0版本这个阶段。 8. H2O H2O被60000多个数据科学家和7000多家企业组织所行使,声称是“天下上领先的开源呆板进修平台。”因为它的内存技能,它提供了极其精彩的机能。它还与Hadoop和Spark之类的其他很多开源数据说明器材整合起来,支持全部首要的风行数据库,提供收费的支持处事。? 除了尺度版的H2O外,该公司还提供Sparkling Water,这个版本整合了Spark和Steam,后者是一种端到端人工智能应用引擎。 9. Lumify Lumify由一家名为Altamira 科技的公司开拓,自称是“开源大数据说明和可视化平台”。? 它让用户易于建设二维或三维图形,可表现实体之间的相关,或在舆图上包围数据。对付有乐趣深入相识它的事变道理的那些人来说,官方网站提供了几个视频,表现了Lumify的现实运行,上面尚有一个演示网站,让用户可以上传本身的数据,并试用软件。 10. Drill ?Apache Drill让用户得以行使SQL查询用于非相关型数据存储体系。它支持一系列NoSQL和基于云的数据存储体系。 Apache Drill包罗HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊S3、Azure Blob Storage、谷歌云存储和Swift。它还让用户可以行使单一查询,即可搜刮用差异技能存储起来的多个数据集。另外,它支持很多风行的贸易智能器材。 11. MongoDB 作为最知名的NoSQL数据库之一,MongoDB是一种开源非相关型数据存储办理方案。客户包罗大城市人寿(MetLife)、芝加哥市、Expedia、谷歌、情景频道、BuzzFeed和Facebook。? ? 除了免费开源版外,该公司还提供一款收费的企业版和云托管的版本MongoDB Atlas。知名市场研究机构弗雷斯特研究公司将MongoDB评为大数据NoSQL规模的“率领者”。 12. SpagoBI SpagoBI是一款开源贸易智能和大数据说明平台。? 该软件完全免费,但还提供收费的用户支持、维护、咨询和培训等处事。它包罗了用于陈诉、多维说明(OLAP)、图表、位置谍报、数据发掘、ETL(抽取转换和加载)及更多其他方面的器材。它还与风行的内存处理赏罚引擎整合起来,可以或许实现及时处理赏罚。 温馨提醒: (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |