加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据说明平台搭建教程:基于Apache Zeppelin Notebook和R的交

发布时间:2021-03-23 21:12:37 所属栏目:大数据 来源:网络整理
导读:先容 这篇文章的目标是辅佐您开始行使 Apache Zeppelin Notebook,它可以满意您用R做数据科学的需求。Zeppelin 是一个提供交互数据说明且基于Web的条记本。利便你做出可数据驱动的、可交互且可协作的精细文档,而且支持多种说话,包罗 Scala(行使 Apache Spa

先容

这篇文章的目标是辅佐您开始行使 Apache Zeppelin Notebook,它可以满意您用R做数据科学的需求。Zeppelin 是一个提供交互数据说明且基于Web的条记本。利便你做出可数据驱动的、可交互且可协作的精细文档,而且支持多种说话,包罗 Scala(行使 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。

大数据说明平台搭建教程:基于Apache Zeppelin Notebook和R的交

然而,最新的官方版本是0.5.0,还不支持R编程说话。荣幸的是,NFLabs公司做了个开源项目,让我提供了一个R的编译器。这个编译器是让用户可以行使自界说的说话做为数据处理赏罚后端的一个 Zeppelin 插件。譬喻在 Zeppelin 行使scala代码,您必要一个 Spark编译器。以是,假如你像我一样有足够的耐性将R集成到Zeppelin中, 这个教程将汇报你奈何从源码开始设置 Zeppelin和R。

筹备事变

  • 我们将通过Bash shell在Linux上安装Zeppelin。假如您行使的是Windows操纵体系,我提议您安装和行使Cygwin终端(它提供成果相同于Windows上的Linux刊行版)。

  • 确保 Java 1.7 和 Maven 3.2.x 是已经安装而且设置到情形变量中。

从源代码构建 Zeppelin

第一步:下载 Zeppelin 源代码

去这github分支下载源代码,将这个链接复制并粘贴到你的赏识器:https://github.com/elbamos/incubator-zeppelin/tree/rinterpreter

在我的例子中我已经下载并解压文件夹在我的桌面

第二步:构建 Zeppelin

假设你是安装在单机,打开你的Terminal,运行下面的代码。假如你是安装在一个集群,会轻微伟大一点,详细步调?Zeppelin 的文档中找到。

$ cd Desktop/Apache/incubator-zeppelin-rinterpreter
$ mvn clean package -DskipTests

这将必要约16分钟构建Zeppelin、Spark,全部引擎包罗R,markdown,shell,hive等。(见下图)。

第三步:启动 Zeppelin

运行以下呼吁启动Zeppelin:

$ ./bin/zeppelin-daemon.sh?start


打开web赏识器,会见http://localhost:8080。此时,您已经筹备好开始在 Zeppelin 用代码建设交互条记本。

交互式数据科学

第一步:建设一个条记本

单击下拉箭头旁边的“条记本”页面,点击“建设新陈诉”。

给你的条记本定名或您可以行使指定的缺省名称。我定名为“Base R in Apache Zeppelin”。

第二步:开始你的说明

如下图所示,挪用R可以用“%spark.r”或“%spark.knitr”标签。起首让我们用 markdown 写一些先容。

按照我们也许必要我们的说明,此刻让我们来安装一些包。

我们将行使“flights”数据集表现2013年分开纽约的航班,此刻让我们读取数据集。

此刻,让我们行使dplyr(用管道符)做一些数据操纵。

您还可以行使条形图和饼图来可视化一些描写性统计数据。

caret包做一些统计的呆板进修。

最后,绘制几个舆图。

大数据说明平台搭建教程:基于Apache Zeppelin Notebook和R的交

竣事语

Zeppelin 辅佐您行使多种编程说话建设交互式文档和瑰丽的图表。这篇文章的目标是辅佐你设置 Zeppelin 和 R。但愿这牛逼的的项目打点委员会(PMC)的开源项目可以用R引擎宣布下一个版本。到时辰安装 Zeppelin必定会更快更利便,而不必从源代码构建。

还值得一提的是,尚有另一个R的编译器是由 Data Layer 提供的。你可以在这里找到声名怎样行使:https://github.com/datalayer/zeppelin-R。

你可以实行着两个编译器,然后然后在下面的评述区分享一下你的行使体验。

Data Layer提供的编译器

RCharts

Rchats Map

GoogleViz

Scala R Binding

R Scala Dataframe Binding

SparkR

用Docker镜像陈设

为了您的利便,Datalayer 为Apache Zeppelin 提供了一个最新的 Docker镜像。你可以通过执行下面的呼吁来获取镜像

docker pull datalayer/zeppelin-rscala

Run the Zeppelin notebook with:

docker run -it -p 2222:22 -p 8080:8080 -p 4040:4040 datalayer/zeppelin-rscala

此刻,你可以去http://localhost:8080测试这个R教程条记了。

瞻望

作为后续这篇文章中,我们将看到在 Zeppelin 中怎样行使 Apache Spark(尤其是SparkR)。

更新

此末节因为原文有也许变换,故不作翻译,望读者包涵,可以直接会见原文查察最新的更新环境。

本文已得到原作者:Daniel Emaasit?授权,并由 HarryZhu 翻译。
【原文地点】:http://blog.sparkiq-labs.com/2015/11/16/interactive-data-science-with-r-in-apache-zeppelin-notebook/

作为分享主义者(sharism),本人全部互联网宣布的图文均遵从CC版权,转载请保存作者信息并注明作者 Harry Zhu 的 FinanceR专栏:https://segmentfault.com/blog/harryprince,假如涉及源代码请注明GitHub地点:https://github.com/harryprince。微信号: harryzhustudio 贸易行使请接洽作者。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读