R说话做文本发掘 Part2分词处理赏罚

发布时间：2021-03-05 07:34:09 所属栏目：大数据来源：网络整理

导读：?? 转载：http://www.voidcn.com/article/p-qkxmglmf-pw.html Part2分词处理赏罚【发明有人转载，抉择把名目什么从头清算一遍，偶然刻做个进阶版文本发掘，恩！原文地点：CSDN-R说话做文本发掘 Part2分词处理赏罚】在RStudio中安装完相干软件包之后，才气做相干分

起首安装跟打扮相干的辞书，同样是从搜狗输入法的词库中下载的两个衣饰类的辞书,下载地点http://pinyin.sogou.com/dict/cate/index/397，这个地点下的前两个词库。

[plain] view plain copy print ?

installDict("D:RsourcesDictionariesfushi.scel",dictname?=?"fushi")??
installDict("D:RsourcesDictionariesAli_fushi.scel",dictname?=?"alifushi")??
listDict()??

installDict("D:RsourcesDictionariesfushi.scel",dictname = "fushi")
installDict("D:RsourcesDictionariesAli_fushi.scel",dictname = "alifushi")
listDict()

? ?Name Type

明星

2 pangu Text

3 fushi 衣饰

4?? ali 衣饰

下一步是将数据读入R中，可以看到一共有1640条微博数据，留意数据的编码名目，readLines默认读取名目是gbk名目标，读取名目差池时会乱码。

[plain] view plain copy print ?

R说话做文本发掘 Part2分词处理赏罚

hlzj?<-readLines("d:RRWorkspaceorgData.txt",encoding?="UTF-8")??
length(hlzj)??

hlzj <-readLines("d:RRWorkspaceorgData.txt",encoding ="UTF-8")
length(hlzj)

[1] 1640

接下来就是做分词了，要先去除数据中也许存在的数字和一些非凡标记，然后分词。

[plain] view plain copy print ?

R说话做文本发掘 Part2分词处理赏罚

hlzjTemp?<-?gsub("[0-9０１２３４５６７８９?<?>?~]","",hlzj)??
hlzjTemp?<-?segmentCN(hlzjTemp)??
hlzjTemp[1:2]??

hlzjTemp <- gsub("[0-9０１２３４５６７８９ < > ~]",hlzj)
hlzjTemp <- segmentCN(hlzjTemp)
hlzjTemp[1:2]

?[1] "新品保举时尚迷彩面料计划?[7] "为"?????? "简约单西注入[13] "非同凡响野性"??? ?"魅力精采"?????

[19] "防水结果使得适用性更[25] "高极具春日吸睛[31] "亮点春季海澜之家男士休闲[37] "洋装韩版西装外衣"???? "HWXAJAA"

小编修身薄款连帽暖心防风保暖撞色线条年青走亲探友出行选择活力过冬轻松冬季热卖正品羽绒服"???? "HWRAJGA"

可以看到微博内容都已经被做过度词处理赏罚了，这个进程很简朴，但现实上也许必要多次查察分词处理赏罚功效，有些词库中不存在以是被截开了的词必要被添加进去，从而让分词结果到达最好。

3.?????? 去停词

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/9

首页

尾页

将大数据转化为营销收	Regem Marr研祥金码机
先用户再客户让AI真正	航空航天类专业解读智