大数据资料之常见的Hadoop十大应用误解进修
(正解) 认识storage的人,第一次看到Hadoop时,每每只会留意到它的漫衍式文件体系HDFS,然后开始拿它来与现有的storage的成果特征做较量,而忽略掉Hadoop自己并行运算的那一块。这很公道,事实MapReduce的观念,在应用上是较量抽象且难以捉摸的,相反的,HDFS就是一个很清晰且具象的观念。Hadoop虽然可以拿来做data archive的运用,但假如你自己的数据没有被常常或无意拿出来行使的需求(也就是我们所说的cold data)的话,Hadoop自己的HDFS作为data archive并不会有出格的上风,反而传统storage的一些延长的成果特征,Hadoop自己并不具备。固然HDFS自己是一个不错的object store,具备有作为scale-out NAS的底层的特征,, 但也就仅限于此了, Hadoop自己并没有出格为它外加storage自己该具有的成果,事实Hadoop当初计划时,对数据的储存与运用的思索,与storage的应用场景是完全纷歧样的。Hadoop自己要办理的,反而是现有当数据被放进storage后,必要再被拿出来处理赏罚或运算时所碰着的坚苦性。也因此,它出格得当那些web click-stream、CDR (call detail record)、GPS data, system log、 and other time-series data等数据,由于这些数据都具有必要常常被拿出来说明处理赏罚的特征。在现实应用中,Hadoop与传统storage着实是相辅相成的,辟如说,我们也许会在Hadoop上放已往3到6个月的数据,由于这些数据的再被操作性较高,而6个月之后的数据就也许会把它archive在传统的storage内,由于它被再操作的水平低许多了。 7. (误解) Hadoop是一个搜刮引擎(Search Engine) (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |