Python爬取4027条脉脉职言,解读互联网人的苦与难!
发布时间:2019-01-30 11:57:52 所属栏目:教程 来源:量化小白H
导读:脉脉是一个实名职场交际平台。之前爬了脉脉职言版块,或许爬了4027条评述,本文对爬取进程给出具体声名,对付评述内容仅做可视化说明,之前存了一堆这方面的文章,本日一看全都404了。 爬虫 如故行使python编程,对爬虫没乐趣的可以直接跳过看下部门,不影
趴下来之后,删掉高出一个字的评述,按词频确定巨细,做词云图如下 用两个字归纳综合你此刻的事变|用2个字总结你的事变 2,5是一样的,趴下来归并到一路后说明。代码不再一再,现实上用上面那段代码,找到json地点后替代,任何一个话题下的评述都可以全爬到,删掉不是2个字的评述后按照词频作图。 行使SnowNLP对评述举办情绪说明,最终4027条中,起劲的有2196条,悲观的有1831条。 起劲 悲观 模子对大部门评述的情绪倾向判定的较量精确,小部门有误。 最后对全部评述提取要害词做词云收尾。 【编辑保举】
点赞 0 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |