R说话做文本发掘 Part2分词处理赏罚
起首安装跟打扮相干的辞书,同样是从搜狗输入法的词库中下载的两个衣饰类的辞书,下载地点http://pinyin.sogou.com/dict/cate/index/397,这个地点下的前两个词库。 [plain] view plain copy print ?
明星 2 pangu Text 3 fushi 衣饰 4?? ali 衣饰 下一步是将数据读入R中,可以看到一共有1640条微博数据,留意数据的编码名目,readLines默认读取名目是gbk名目标,读取名目差池时会乱码。 [plain] view plain copy print ?
接下来就是做分词了,要先去除数据中也许存在的数字和一些非凡标记,然后分词。 [plain] view plain copy print ?
[19] "防水结果使得适用性更[25] "高极具春日吸睛[31] "亮点春季海澜之家男士休闲[37] "洋装韩版西装外衣"???? "HWXAJAA" 小编修身薄款连帽暖心防风保暖撞色线条年青走亲探友出行选择活力过冬轻松冬季热卖正品羽绒服"???? "HWRAJGA" 可以看到微博内容都已经被做过度词处理赏罚了,这个进程很简朴,但现实上也许必要多次查察分词处理赏罚功效,有些词库中不存在以是被截开了的词必要被添加进去,从而让分词结果到达最好。 ? 3.?????? 去停词 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |