加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

R在文本发掘与说明的妙用:分词、画词云

发布时间:2021-03-08 02:36:49 所属栏目:大数据 来源:网络整理
导读:报道大数据企业: 大数据产物、大数据方案、 ? 大数据人物 分享大数据干货: 大数据书本、大数据陈诉、 大数据视频 本文转自蔡捕头的新浪博客。接待更多优质原创文章投稿给大数据人:289585305@qq.com 择要: 要说明文本内容,最常见的说明要领是提取文本中
副问题[/!--empirenews.page--]

R在文本发掘与说明的妙用:分词、画词云

R在文本发掘与说明的妙用:分词、画词云

报道大数据企业:大数据产物、大数据方案、

? 大数据人物

分享大数据干货:大数据书本、大数据陈诉、

大数据视频

本文转自蔡捕头的新浪博客。接待更多优质原创文章投稿给大数据人:289585305@qq.com


择要:要说明文本内容,最常见的说明要领是提取文本中的词语,并统计频率。频率能反应词语在文本中的重要性,一样平常越重要的词语,在文本中呈现的次数就会越多。词语提取后,还可以做成词云,让词语的频率属性可视化,越发直观清楚。


好比下图:

R在文本发掘与说明的妙用:分词、画词云

这是按照总理2014年的当局事变陈诉建造的可视化词云,分词和词云的建造都是用R,词频的统计用了其他软件。这个图能很直寓目到,事变陈诉的重心是"成长",这是大偏向,环绕成长的要害要素有经济建树、改良、农村、城镇等要素。不外这张图中的词语还必要举办优化,由于有些术语或词组也许被拆分成了更小的词语,没有展示出来,为了演示,我就没再花更多时刻去优化词库,首要是讲讲说明的要领。

下面是说明要领:

起首,要得到要说明的内容,做成txt文本文件。这个很简朴,把要说明的内容粘贴到记事本,生涯为txt文件就可以了。

其次,用R举办分词。这里要分几点来讲:

要用R举办分词,必要安装并装载两个library,一个是Rwordseg,另一个是rJava。rJava的浸染是提供java的库,供Rwordseg挪用。安装后,挪用语句如下:

library(rJava)

library(Rwordseg)

说说Rwordseg,这是一个R情形下的中文分词器材,引用了Ansj包,Ansj是一个开源的java中文分词器材,基于中科院的ictclas中文分词算法,回收隐马尔科夫模子(HMM)。Rwordseg牛逼的处所三点,一是分词精确,二是分词速率超快,三是可以导入自界说词库,故意思的是还可以导入搜狗输入法的细胞词库(sqel名目),想想细胞词库有多复杂吧,这个真是太锋利了。

分词的语法。很简朴,一个函数就搞定了,看下面:

segmentCN("待说明文件的完备路径",returnType="tm")

留意:R中的路径用""支解文件夹。参数returnType暗示返回的分词名目是按空格隔断的名目。执行完成后,会自动在沟通目次天生一个"待说明文件名. .segment.txt"的文本文件,打开可以看到是酱紫:

R在文本发掘与说明的妙用:分词、画词云


然后,要统计词频。到了这里,每个单词呈现的频率是几多,必要统计出来。这个词频统计,我在R中找了一阵,没有找到吻合的器材来统计,有人说lm可以统计,试了试不可。于是乎用了其他的软件。这方面的软件不少,各人可以找找,总之,统计出来是酱紫的:

R在文本发掘与说明的妙用:分词、画词云


最后,就是画成词云。R有器材可以画词云,虽然互联网上有不少网站可以在线建造词云,做得也很大度,有乐趣可以去找找,我这里只谈R中的要领:

安装并装载画词云的器材包wordcloud:

library(wordcloud)

读取已经统计好词频的文件:

mydata<-read.table("已统计好词频的文本文件的完备路径",head=TRUE)

配置一个颜色系:

mycolors <- brewer.pal(8,"Dark2")

绘图:

wordcloud(mydata$词汇,mydata$词频,random.order=FALSE,random.color=FALSE,colors=mycolors,family="myFont3")

然后就可以看到最上面的谁人图了。
增补声名:

1、安装rJava:必要先在电脑上下载安装JDK,即java devolop kit,然后再通过R从CRAN上选择安装rJava,不然,纵然安装了rJava也用不了。条件是JDK必需先安装好;
2、安装Rwordseg,这个包不在CRAN上,以是不能在R中直接选择在线安装,必要用下面两种方法来安装,输入:
install.packages("Rwordseg", repos = "http://R-Forge.R-project.org")
②(假如上面不能安装,则用下面的)
install.packages("Rwordseg", repos = "http://R-Forge.R-project.org", type = "source")

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读