加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Python爬取4027条脉脉职言,解读互联网人的苦与难!

发布时间:2019-01-30 11:57:52 所属栏目:教程 来源:量化小白H
导读:脉脉是一个实名职场交际平台。之前爬了脉脉职言版块,或许爬了4027条评述,本文对爬取进程给出具体声名,对付评述内容仅做可视化说明,之前存了一堆这方面的文章,本日一看全都404了。 爬虫 如故行使python编程,对爬虫没乐趣的可以直接跳过看下部门,不影

就这样断断续续爬了一堆文件去重之后,获得了4027条数据,名目如下

Python爬取4027条脉脉职言,解读互联网人的苦与难!

接下来对爬到的数据做一些简朴的说明。由于并不没酉嘈沤全量评述,只是一个小样本,以是功效必定是有偏的,但爬的时刻很随机,并且前前后后爬了两周多,这样选样也较量随机,照旧有必然的代表性。

脉脉中讲话用户有两类,一类是完全匿名的,用体系天生的昵称,一类表现为xx公司员工,我们统计爬到的样本中这两种用户的数目及发帖量。4027条职言中,差异发帖人共计1100名。

Python爬取4027条脉脉职言,解读互联网人的苦与难!

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读