加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据处理赏罚的 9 大编程说话

发布时间:2021-03-06 05:09:41 所属栏目:大数据 来源:网络整理
导读:(点击 上方公家号 ,可快速存眷) 英文:Anna Nicolauo 译者:伯乐在线 - 胡波 链接:http://blog.jobbole.com/100732/ 有关大数据的话题一向很火热。陪伴着信息的爆炸式增添,大数据渗出到了各行各业,普及应用于公司中,同时也使得传统的软件好比 Excel
副问题[/!--empirenews.page--]

(点击上方公家号,可快速存眷)


英文:Anna Nicolauo

译者:伯乐在线 - 胡波

链接:http://blog.jobbole.com/100732/


有关大数据的话题一向很火热。陪伴着信息的爆炸式增添,大数据渗出到了各行各业,普及应用于公司中,同时也使得传统的软件好比 Excel 看起来很鸠拙。数据说明不再只是书白痴的事,同时其对高伟大性说明、及时处理赏罚的需求也比以往越发复杂。


那么筛选海量数据集最优的器材是什么呢?我们咨询了一些数据黑客关于他们在数据说明的焦点事变中最喜好的编程说话和器材包。


R 说话


这份名单假如不以 R 开头,那就是彻头彻尾的疏忽。自 1997 年起,作为一门免费的,可更换 Matlab 或 SAS 等昂贵统计软件的说话,R 被丢弃。


可是在已往的几年中,它却成了数据科学的宠儿—乃至成了统计学家、 华尔街买卖营业员、生物学家和硅谷开拓者必不行少的器材。 跟着其贸易代价的不绝增添和撒播,诸如谷歌、Facebook、 美国银行和纽约期间周刊都在行使。


R 简朴易用。通过 R ,短短几行代码就可以筛选伟大的数据集,通过成熟的模子函数处理赏罚数据,建造精细的图表举办数据可视化。的确就是 Excel 的增强机动版。


R 最大的代价就是环绕其开拓的活泼的生态圈: R 社区在一连不绝地向现存富厚的函数集增加新的包和特征。据预计 R 的行使者已经高出 200 万人,最近的一项观测也表现 R今朝是数据科学规模最受接待的说话,约莫 61% 的受访者行使 R(第二名是 Python,占比39%)。


在华尔街,R 的行使比例也在不绝增添。美国银行副总裁Niall O’Connor 说:“以往,说明员凡是是熬夜研究 Excel 文件,可是此刻 R 正被逐渐地应用于金融建模,尤其是作为可视化器材。R 促使了表格化说明的出局。”


作为一门数据建模说话, R 正在走向成熟,尽量在公司必要大局限产物的时辰 R 手段有限,也有些人说它已经被其他说话更换了。


Metamarkets 公司的 CEO Michael Driscoll 说:“ R 善于的是勾画,而不是搭建,在 Google 的 page rank 算法和 Facebook 的挚友保举算法实现的焦点中是不会有 R 的。工程师会用 R 举办原型计划,再用 Java 可能 Python将着实现。”


Paul Butler 在 2010 年用 R 构建了一个闻名的 Facebook 天下舆图,证明白 R 在数据可视化上的强盛手段。然而他并不常常行使 R。


Butler 说:“因为在处理赏罚较大数据集时迟钝且鸠拙,R 在行业中已经有些沦为嫡黄花了 ”


那么行使什么作为它的更换呢?看下去。


Python


假如 R 是个有点神经质的可爱的极客,那么 Python 就是它轻易相处的欢畅的表弟。融合了 R 快速成熟的数据发掘手段以及更现实的产物构建手段, Python 正敏捷地得到主流的呼声。 Python 更直观,且比 R 更易学,近几年其整体的生态体系成长也生长得很快,使其在统计说明上的手段逾越了之前的 R 说话。


Butler 说:“Python 是行业职员正在转换成长的偏向。已往两年里,很明明存在由 R 向 Python 转化的趋势”


在数据处理赏罚中,凡是存在局限和能力的衡量,Python 作为一个折中呈现了。 IPython notebook 和NumPy 可以用于轻量事变的处理赏罚, 而 Python 则是中级局限数据处理赏罚的有力器材。富厚的数据交换社区也是 Python 的上风,它提供了大量的Python 器材包和特征。


美国银行操作 Python 开拓新产物以及基本办法接口,同时也用于处理赏罚金融数据。O’Donnell 说:“Python 用途宽阔且机动,以是人们簇拥而至”。


然而, Driscoll 也提到它并不是高机能的说话,无意才会用于装配驱动大局限的焦点基本办法。


JULIA


最主流的数据科学处理赏罚说话包罗 R、 Python、 Java、 Matlab和 SAS。可是这些说话如故存在一些不敷之处,而Julia 正是待以调查的新人。


对大局限商用来说, Julia 照旧太艰涩了。但在谈到其代替 R 和 Python 领先职位的潜力的时辰,数据极客们城市变得很感动。 Julia 是一门高级的,很是快的函数式说话。速率上比 R 快, 也许比 Python 的扩展性更高,且相对易学。


Butler 说:“Julia 正在快速上升。最终将可以用 Julia 完成任何 R 和 Python 可以完成的事”。


现在的题目是 Julia 太“年青”了。 其数据交换社区仍处在早期成长阶段,在没有足够的包和器材之前是不敷以与 R 和 Python 竞争的。


Driscoll 说:“Julia 很年青,但正在积攒力气并且将来很可观”。


JAVA


在硅谷最大的科技公司里,Java 和基于 Java 的框架组成了其底层的技能骨架。Driscoll 说:“假如深入调查Twitter,Linkedin 可能 Facebook,你会发明 Java 是他们公司数据引擎架构的基本说话”。


Java 并没有 R 和 Python 那样的数据可视化的手段, 同时也不是最好的用于统计模子的说话。可是假如必要举办原型的基本开拓和构建大局限体系, Java 每每是最好的选择。


HADOOP 和 HIVE


为了满意数据处理赏罚的庞大需求,基于 Java 的器材群涌而现。 作为基于 Java 的框架,Hadoop 在批处理赏罚规模成为热门。Hadoop 比其他处理赏罚器材速率要慢,可是它很是准确且被普及的应用于靠山说明,它很好的融合了 Hive, 一个运行在 Hadoop 上的基于查询的框架。


SCALA


Scala 是另一个基于 Java的说话,和 Java 很相似,它正在逐渐生长为大局限呆板进修或高级算法的器材。它是函数式说话,也可以或许构建结实的体系。


Driscoll 说:“Java 就像是直接用钢筋举办搭建, Scala 则像是在处理赏罚黏土原原料,可以将其放进窖中烧制成钢筋”。


KAFKA 和 STORM


当必要快速、及时说明时怎么办?Kafka 可以辅佐你。它已经成长了或许五年时刻,但最近才成为一个流处理赏罚的风行框架。


Kafka 降生于 Linkedin 公司的内部项目,是一个快速查询体系。至于 Kafka 的弱点呢? 它太快了,及时的操纵也导致了自身的错误,且无意还会遗失约息。


Driscoll 说:“在精度和速率之间总必要做衡量,以是硅谷全部的大公司一样平常都双管齐下: 用 kafka 和 Storm 举办及时处理赏罚,用 Hadoop 做批处理赏罚体系,固然会慢一点但却异常准确”。


Storm 是另一个用 Scala 写的框架,且它在硅谷以善于流处理赏罚而受到极大的存眷。毫无疑问, Twitter, 一个对快速动静处理赏罚有着庞大乐趣的公司会收购了 Storm。


侥幸的提到:


MATLAB


MATLAB 已经存在很长时刻了,尽量价值昂贵,但它仍在某些特定规模被普及行使: 呆板进修研究、信号处理赏罚、图像辨认等规模。


OCTAVE


Octave 与 Matlab 很是相似,只不外它是免费的。然而除了信号处理赏罚的学术圈之外很少见到行使。


GO


(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读