加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

R说话做文本发掘 Part2分词处理赏罚

发布时间:2021-03-05 07:34:09 所属栏目:大数据 来源:网络整理
导读:?? 转载:http://www.voidcn.com/article/p-qkxmglmf-pw.html Part2分词处理赏罚 【发明有人转载,抉择把名目什么从头清算一遍,偶然刻做个进阶版文本发掘,恩!原文地点:CSDN-R说话做文本发掘 Part2分词处理赏罚】 在RStudio中安装完相干软件包之后,才气做相干分

[plain] view plain copy print ?

R说话做文本发掘 Part2分词处理赏罚

R说话做文本发掘 Part2分词处理赏罚

  1. removeStopWords?<-?function(x,stopwords)?{??
  2. temp?<-?character(0)??
  3. index?<-?1??
  4. xLen?<-?length(x)??
  5. while?(index?<=?xLen)?{??
  6. if?(length(stopwords[stopwords==x[index]])?<1)??
  7. temp<-?c(temp,x[index])??
  8. index?<-?index?+1??
  9. }??
  10. temp??
  11. }??

[plain] view plain copy print ?

R说话做文本发掘 Part2分词处理赏罚

R说话做文本发掘 Part2分词处理赏罚

  1. hlzjTemp2?<-lapply(hlzjTemp,removeStopWords,stopwords)??
  2. hlzjTemp2[1:2]??
"? ???""???? "HWRAJGA"

跟hlzjTemp[1:2]的内容较量可以明明发明“的”这样的字都被去掉了。

?

4.?????? 词云

词云是此刻很常见的一种说明图,把这些词语放在一张图中,频次来表现词语的巨细,这样就能很直寓目出那些词语呈现得较量多,在舆情说明中常常被用到。

下面的进程是将分词功效做一个统计,计较出每个词呈现的次数并排序,然后取排名在前150的150个词语,用wordcloud()要领来画词云。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读