加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据说明,Hadoop够用吗?Facebook数据专家说No

发布时间:2021-05-26 06:27:34 所属栏目:大数据 来源:网络整理
导读:跟着大数据的成长和应用,Hadoop框架受到越来越多的存眷和应用。Facebook说明主管Ken Rudin暗示,不要鄙视相关型数据库技能的代价。他以为,Hadoop也许是“大数据”行为的代名词,但它并不是企业从大局限存储的非布局化信息中获得代价的独一器材。 “ 有许多
副问题[/!--empirenews.page--]


跟着大数据的成长和应用,Hadoop框架受到越来越多的存眷和应用。Facebook说明主管Ken Rudin暗示,不要鄙视相关型数据库技能的代价。他以为,Hadoop也许是“大数据”行为的代名词,但它并不是企业从大局限存储的非布局化信息中获得代价的独一器材。


有许多很遍及的大数据见识着实要被质疑,起首一点就是人们广泛以为你可以简朴地操作Hadoop,而且Hadoop易于行使。题目是,Hadoop是一项技能,而 大数据和技能无关。大数据是和营业需求有关的。究竟上,大数据应该包罗Hadoop和相关型数据库以及任何其余得当于我们手头使命的技能。


Rudin说,Facebook的营业模式依靠于其对付高出10亿交际媒体用户的用户资料和勾当数据的处理赏罚,从而提供有针对性的告白。然而,对付我们必要做的工作而言,Hadoop并不老是最好的器材。

譬喻,在Hadoop中对一个数据集做普及而且试探性的说明是很故意义的,但相关型存储对付那些尚未发明的对象举办运行说明则更好。Hadoop对付在一个数据齐集探求最低程度的细节也很好用,但相关型数据库对付数据的存储转换和汇总则更故意义。因此底线是,对付你的任何需求,要行使正确的技能。


他暗示,尚有另一个假设,以为大数据为纯真的举动说明提供了名贵的代价:“题目是这说明给那些无人问津的题目得出了越发智慧的谜底。要弄清晰什么是正确的题目依然是一门艺术”。Facebook一向专注于雇佣吻合的员工来运行他们的说明操纵,那些人不只要在统计学专业得到博士学位,而且还要能干营业。


当你口试员工时,不要只存眷于“我们怎么计较这个指标”,相反,你应该给他们一个贸易案例来研究,而且问他们在这个案例中哪个是最重要的指标。企业也应该实行着去作育,大家参加说明。


据Rudin透露,Facebook运营一个内部的“数据培训营”,一个辅导员工怎样说明的时长两周的项目。产物司理、计划师、工程师乃至财政部分事恋职员都要介入。每小我私人都参加个中的意义就在于,每小我私人可以用一个配合的数据说话,来相互接头数据的题目和贫困。


Facebook还改变了统计职员和营业团队的组织要领。假如统计职员保持独立,他们每每会坐在哪里守候来自营业规模的哀求找上门来,再回应他们,而不是主动去做。可是假如统计职员被安排到营业部分,你会发明多个集体将会试图冗余地办理题目。


Facebook已经回收了“嵌入式”模式,个中说明师被放在营业团队中,但他们要向一些更高级此外说明师陈诉,这有助于停止一再的劳动。


对付Hadoop怎样组合和处理赏罚大数据的能力和要领,数据专家Anoop曾经在另一篇文章中提到过,一样平常环境下,为了获得最终的功效,数据必要插手多个数据集一路被处理赏罚和连系。


Hadoop中有许多要领可以插手多个数据集。MapReduce提供了Map端和Reduce端的数据毗连。这些毗连长短平时的毗连,而且也许会长短常昂贵的操纵。Pig和Hive也具有平等的手段来申请毗连到多个数据集。Pig提供了复制毗连,归并毗连和倾斜毗连(skewed join),而且Hive提供了map端的毗连和完备外部毗连来说明数据。


一个重要的究竟是,通过行使各类器材,好比MapReduce、Pig和Hive等,数据可以基于它们的内置成果和现实需求来行使它们。至于在Hadoop说明大量数据,Anoop指出,凡是,在大数据/Hadoop的天下,一些题目也许并不伟大,而且办理方案也是直截了当的,但面对的挑衅是数据量。在这种环境下必要差异的办理步伐来办理题目。


(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读