加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

五个顶级的大数据架构

发布时间:2018-09-05 18:35:16 所属栏目:大数据 来源:企业网D1Net
导读:自从像AWS这样的民众云产物开发了大数据说明成果以来,小企业通过发掘大量的数据做到只有大企业才气做到的工作,至今约莫有10年时刻。这些工作个中包罗收集日记、客户购置记录等,并通过按使需付费的方法提供低本钱的商品集群。在这十年中,这些产物发达发

•提醒和能力:全力回收AWS打点的处事DynamoDB,而不是设置EC2并加载第三方体系。按期修剪最终用户DynamoDB表,并在这些汗青表上建设每周或每月的表。行使Dynamic DynamoDB“自动调解”设置的容量,使其始终满意耗损。行使DynamoDB Streams可以对客户处事打消等要害变乱举办及时相应,可能在第二个地区提供备份。

(4)企业数据客栈(EDW)

企业数据客栈(EDW)与此处提到的其他体系截然差异。它提供了人们称之为“OLAP”(在线说明处理赏罚,可以支持来自内部用户的一些长时刻运行的查询)与“OLTP”(在线事宜处理赏罚,可以支持来自最终用户的大量读取和写入)成果,如Oracle的RDBMS或MySQL。虽然,可以行使OLTP体系作为企业数据客栈(EDW),可是大大都人都将OLTP数据库齐集在最近用户的低耽误,最近变乱(如“跟踪上周的订单”)需求和按期(凡是是天天)窗口更旧数据输出到OLAP体系,营业用户可以在数月或数年的数据中运行长时刻的查询。

这些OLAP体系行使诸如列式存储、数据非类型化(建设具有险些斡巧爽度的“数据立方体”)等计策,并提供RDBMS级ANSI 92 SQL依从性,这意味着可以完全会见SQL成果,而且可以定制Tableau等可视化器材直接与他们相助。

•本钱:$$ - $$$$$(凡是必要大量节点来存储和处理赏罚大量数据)。

•合用性:假如但愿专门针对营业代价说明数据或构建KPI的及时仪表板。

•告诫:确保团队相识OLAP和OLTP之间的区别,并确保他们以正确的方法行使每个OLAP和OLTP。

•提醒和能力:与EMR/Hadoop一样,只在必要时启动集群,将源数据生涯在S3存储桶中(这现实上是Redshift默认事变的方法)。标志集群,以便用可以或许以自动方法快速辨认和封锁未行使的容量。思量保存以节制本钱。真正相识可用的差异节点范例(高存储、高吞吐量)以便操作每个节点范例。回收本机加密,由于它可以将机能低落多达20%-25%。通过O'Reilly课程深入相识Redshift,或思量通过精彩的“数据客栈”课程举办面扑面培训,该课程险些完全涵盖Redshift。

(5)当场说明

几年前,Presto通过提供高机能的数据说明改变了游戏法则,而无需将数据从原生的、低本钱的恒久存储中移出。其最终功效是,可以简朴地运行查询,而不是必需为昂贵的EMR或Redshift集群付出所有效度。而是只按行使的内容收费。

另外,人们必要许多时刻来实行选择(然后打点)EMR或Redshift集群的正确节点和节点数。回收Presto,人们不再知道也不体谅这种不同,而这统统都在用户必要的时辰起到浸染。

最后,Presto支持RDBMS级此外ANSI-92 SQL兼容性,这意味着全部可视化器材都可以直接行使它,具有的SQL配景可以在ad-hoc查询中全面行使。

•用度:$ - $$

•合用性:本钱极低。没有任何打点。可以作为低本钱、中等机能的企业数据客栈(EDW)。它不必要将数据复制到第二个体系。大型毗连和伟大说明结果很好。

•告诫:必要最低耽误。为了得到不错的机能,也许会行使序列化名目Parquet、压缩、从头分区等从头名目化存储的数据。也许必要多轮查询调解和/或从头名目化才气得到正确的功效。今朝不支持UDF或事宜。

•热点产物:AWS Athena(用于查询S3数据的托管处事),EMR(托管处事-可以自动安装Presto),自我打点的Presto(基于EC2–用户永久不想在AWS中执行此操纵)。

•提醒和能力:只需行使Athena。操作AWS Glue构建ETL管道,以获取原始数据,并将其从头名目化为S3或Athena可以更有用地行使的内容。行使S3生命周期计策将原有的数据移动到低本钱的归档存储(如Glacier)。

||  把它们放在一路

通过相识将在民众云中运行的五个顶级大数据架构,用户此刻可以得到有关最佳应用位置的可操纵信息,以及暗藏的位置。

一旦用户开始在AWS民众云中构建大数据架构,将很快相识到更多的架构,而且在许多环境下,企业也许会最终同时行使上述全部内容,也许行使Kinesis将客户数据流媒体传输到DynamoDB和S3。用户也许无意会在该源数据上启动EMR(举办某些呆板进修)或Redshift(说明KPI)集群,可能可以选择以可以通过AWS Athena当场会见的方法名目化数据,让它像企业数据客栈(EDW)一样施展浸染。

具有执行TMTOWTDI的手段是一件功德,AWS公司全力提供最适实用户需求的处事。假如用户从新开始,在AWS认证的环球常识培训课程中耗费三天时刻将可以提供满意其需求的处事,并让用户尽快开始运营,而且顺遂实验。

相干阅读:

数据期间,为什么python大数据受接待?

大数据行使的5种首要数据发掘技能

大数据想做驱动多财富成长的“引擎”,还需把握哪些能力?

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读