大数据说明,Hadoop够用吗?Facebook数据专家说No
副问题[/!--empirenews.page--]
跟着大数据的成长和应用,Hadoop框架受到越来越多的存眷和应用。Facebook说明主管Ken Rudin暗示,不要鄙视相关型数据库技能的代价。他以为,Hadoop也许是“大数据”行为的代名词,但它并不是企业从大局限存储的非布局化信息中获得代价的独一器材。 Rudin说,Facebook的营业模式依靠于其对付高出10亿交际媒体用户的用户资料和勾当数据的处理赏罚,从而提供有针对性的告白。然而,对付我们必要做的工作而言,Hadoop并不老是最好的器材。 他暗示,尚有另一个假设,以为大数据为纯真的举动说明提供了名贵的代价:“题目是这说明给那些无人问津的题目得出了越发智慧的谜底。要弄清晰什么是正确的题目依然是一门艺术”。Facebook一向专注于雇佣吻合的员工来运行他们的说明操纵,那些人不只要在统计学专业得到博士学位,而且还要能干营业。 据Rudin透露,Facebook运营一个内部的“数据培训营”,一个辅导员工怎样说明的时长两周的项目。产物司理、计划师、工程师乃至财政部分事恋职员都要介入。每小我私人都参加个中的意义就在于,每小我私人可以用一个配合的数据说话,来相互接头数据的题目和贫困。 Facebook还改变了统计职员和营业团队的组织要领。假如统计职员保持独立,他们每每会坐在哪里守候来自营业规模的哀求找上门来,再回应他们,而不是主动去做。可是假如统计职员被安排到营业部分,你会发明多个集体将会试图冗余地办理题目。 Facebook已经回收了“嵌入式”模式,个中说明师被放在营业团队中,但他们要向一些更高级此外说明师陈诉,这有助于停止一再的劳动。 对付Hadoop怎样组合和处理赏罚大数据的能力和要领,数据专家Anoop曾经在另一篇文章中提到过,一样平常环境下,为了获得最终的功效,数据必要插手多个数据集一路被处理赏罚和连系。 Hadoop中有许多要领可以插手多个数据集。MapReduce提供了Map端和Reduce端的数据毗连。这些毗连长短平时的毗连,而且也许会长短常昂贵的操纵。Pig和Hive也具有平等的手段来申请毗连到多个数据集。Pig提供了复制毗连,归并毗连和倾斜毗连(skewed join),而且Hive提供了map端的毗连和完备外部毗连来说明数据。 一个重要的究竟是,通过行使各类器材,好比MapReduce、Pig和Hive等,数据可以基于它们的内置成果和现实需求来行使它们。至于在Hadoop说明大量数据,Anoop指出,凡是,在大数据/Hadoop的天下,一些题目也许并不伟大,而且办理方案也是直截了当的,但面对的挑衅是数据量。在这种环境下必要差异的办理步伐来办理题目。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |