加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

OpenStack如何在大数据用例中扮演关键角色

发布时间:2018-04-25 17:03:31 所属栏目:大数据 来源:站长网
导读:OpenStack 节制计较、存储和收集资源池。本文首要存眷 OpenStack 如安在大数据用例中饰演要害脚色。 OpenStack 上的大数据 此刻,数据四处天生,数据量呈指数增添。来自 Web 处事器、应用措施处事器、数据库处事器的数据以用户信息、日记文件和体系状态信

Oozie 是 Hadoop 生态体系中可用的事变流引擎。事变流是一组必需作为漫衍式情形中的序列执行的使命。Oozie 辅佐建设一个简朴的事变流来层叠多个事变流并建设和谐的功课。Oozie 用于为伟大的 ETL 功课建设事变流也很抱负,尽量它没有模块来支持与 Hadoop 相干的全部操纵。

我们可以行使任何事变流引擎来执行 ETL 事变,譬喻 Openstack Mistral (事变流即处事)。Apache oozie 在某些方面相同于 Openstack Mistral ,充当可以按期触发的功课调治器。

我们来看看一个典范的 ETL 功课流程,它行使Hadoop 将应用措施将其数据存储在 MySQL 处事器中。存储的数据必要以起码的本钱和时刻举办说明。

提取

第一步是从 MySQL 中提取数据并将其存储在 HDFS中。

Apache Sqoop 可用于从布局化数据源(如 RDBMS数据存储)导出/导入数据。

假如要提取的数据是半布局化的或非布局化的,你可以行使 Apache Flume 从数据链接中获取数据,譬喻 Web 处事器日记、Twitter 数据流或传感器数据。

转换

从上述阶段提取的数据名目不正确(只是原始数据)。应该用恰当的过滤器和数据聚合来整理。

这是在 HDFS 中存储数据必不行少的。

此时,我们必要为每个表计划 Hive 模式,并建设一个数据库来转换存储在姑且地区中的数据。

凡是环境下,数据回收 .csv 名目,每笔记录均以逗号脱离。

我们不必要搜查 HDFS 数据以相识它是怎样存储的。有一些非常数据范例应该与 Hive 兼容。

数据库建模后,我们可以加载提取的数据举办整理。表格中的数据如故未尺度化。从差异的表中聚合所需的列。

同样,可以用“ OVERWRITE INTO TABLE ”语句来汇总多个表中的数据。

Hive 支持分区表,通进程度分派执行负载来进步查询机能。我们倾向于分区存储年份和月份的列。偶然,分区表在 MapReduce 功课中建设更多使命。

加载

此刻是时辰将转换后的数据加载到 HDFS 中的数据客栈目次中,这是数据的最终状态。在这里,我们可以应用 SQL 查询来得到恰当的功效。

全部的 DML 呼吁都可以用来说明基于用例的客栈数据。

功效可以下载为 .csv、表格或图表举办说明。它可以与其他风行的贸易智能器材(如Talend OpenStudio、Tabelau 等)集成。

自动化

此刻行使 Oozie 事变流引擎自动执行 ETL 功课(你也可以行使 Mistral,大大都 Hadoop 用户习习用Apache Oozie )。

结论

OpenStack 集成了一个很是大的 Hadoop 生态体系,很多云提供商提供 Hadoop 处事(只必要点击几下它们的云打点派别网站即可)。Sahara 支持大部门 Hadoop 供给商插件,让你执行 ETL 事变流。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读