R说话做文本发掘 Part2分词处理赏罚
分词已经有功效了,可是分词的功效中存在许多像,“吧”,“吗”,“的”,“呢”这些无现实寄义的语气词,可能是“纵然”,“可是”这样的转折词,可能是一些标记,这样的词就叫做停词。要做进一步的说明也许必要去掉这些停词。 先本身清算一个停词表,这个停词表是我本身找的,包括一些常见的停词,然后按照现实内容中呈现的一些无现实说明意义的词语,就可以作为我们的停词表了,网上能找到别人已经清算好的停词表。 [plain] view plain copy print ?
??? "哎哟唉俺俺们"? ?????"按凭证吧????? V157?????? V158?????? V159?????? V160?????? V161?????? V162?????? V163 吧哒把而已被本本着比????? V164?????? V165?????? V166?????? V167?????? V168?????? V169?????? V170 ?? ?"例如好比不才彼互相边别????? V171?????? V172?????? V173?????? V174?????? V175?????? V176?????? V177 此外别说并而且不比不成不光????? V178?????? V179?????? V180?????? V181?????? V182?????? V183?????? V184 不单不独不管不仅不外不只不拘????? V185?????? V186?????? V187?????? V188?????? V189?????? V190?????? V191 岂论不怕否则不如" ????"不特不惟不问????? V192?????? V193?????? V194?????? V195?????? V196?????? V197?????? V198 不但朝朝着趁趁着乘冲????? V199????? V1100 ????? "除除此之外" (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |