加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Python爬取4027条脉脉职言,解读互联网人的苦与难!

发布时间:2019-01-30 11:57:52 所属栏目:教程 来源:量化小白H
导读:脉脉是一个实名职场交际平台。之前爬了脉脉职言版块,或许爬了4027条评述,本文对爬取进程给出具体声名,对付评述内容仅做可视化说明,之前存了一堆这方面的文章,本日一看全都404了。 爬虫 如故行使python编程,对爬虫没乐趣的可以直接跳过看下部门,不影

匿名发帖人无法获取更过细的数据,但对付那些不匿名的发帖人,可以获取他们地址公司 信息,将发帖数按公司汇总,看各大企业发帖量,可以作为整体的一个预计。统计时已经思量了公司名称输入纷歧致的环境,将蚂蚁金服、付出宝等替代成了阿里巴巴,京东金融等替代成京东,今天头条、抖音等替代为字节跳动,取发帖数TOP20。

Python爬取4027条脉脉职言,解读互联网人的苦与难!

可以看到,发帖人大多来自互联网企业,金融、地产等其他企业相对较少。

文天职析

对付转发、评述数、点赞数,由于有爬取时刻上的差别,以是欠好直接较量,给出评述数最多的前5条评述,看看各人最乐意参加的话题是什么。

  1.  用一个字归纳综合一下你的2018年。(1659条评述)
  2. 【再就业告急帖】本人是刚被优化掉的知乎措施员,事变3年。较量想去BAT等大厂,但愿贵厂HR们带公司认证往返覆一下,发一发真实有hc的岗亭,祝愿兄弟们都能找到新事变。(610条评述)
  3. 用两个字归纳综合你此刻的事变。(477条评述)
  4. 网易涨本年薪涨了50%.....公司是蓬勃了吗?(458条评述)
  5. 用2个字总结你的事变。(415条评述)

1,4,5都是蛮故意思的题目,我们把1,4,5的评述都趴下来,做成词云,看看各人都在说些什么。

用一个字归纳综合你的2018年

爬虫进程跟上面根基是一样的,找到json,不外这个可以爬到所有评述。

  1. # -*- coding: utf-8 -*- 
  2. """ 
  3. Created on Fri Oct 19 18:50:03 2018 
  4. """ 
  5. import urllib 
  6. import requests 
  7. from fake_useragent import UserAgent 
  8. import json 
  9. import pandas as pd 
  10. import time 
  11. # 发送get哀求 
  12. comment_api = 'https://maimai.cn/sdk/web/gossip/getcmts?gid=18606987&page={}&count=50&hotcmts_limit_count=1&u=206793936&channel=www&version=4.0.0&_csrf=38244DlN-X0iNIk6A4seLXFx6hz3Ds6wfQ0Y&access_token=1.9ff1c9df8547b2b2c62bf58b28e84b97&uid=%22MRlTFjf812rF62rOeDhC6vAirs3A3wL6ApgZu%2Fo1crA%3D%22&token=%22rE8q1xp6fZlxvwygWJn1UFDjrmMXDrSE2tc6uDKNIDZtRErng0FRwvduckWMwYzn8CKuzcDfAvoCmBm7%2BjVysA%3D%3D%22' 
  13. """ 
  14. author:作者 
  15. text:评述 
  16. 、 
  17.  
  18. """ 
  19.  
  20.  
  21. #headers = { "User-Agent": UserAgent(verify_ssl=False).random,'Cookie':cookie} 
  22. headers = { "User-Agent": UserAgent(verify_ssl=False).random} 
  23. j = 0 
  24. k = 0 
  25. response_comment = requests.get(comment_api.format(0),headers = headers) 
  26. json_comment = response_comment.text 
  27. json_comment = json.loads(json_comment) 
  28.  
  29.  
  30. num = json_comment['total'] 
  31. cols = ['author','text'] 
  32. dataall = pd.DataFrame(index = range(num),columns = cols) 
  33.  
  34. while j < num : 
  35.    n = json_comment['count'] 
  36.    for i in range(n): 
  37.  
  38.        dataall.loc[j,'author'] = json_comment['comments'][i]['name'] 
  39.        dataall.loc[j,'text'] = json_comment['comments'][i]['text'] 
  40.        j+= 1              
  41.    k += 1 
  42.    comment_api1 = comment_api.format(k)  
  43.     
  44.    response_comment = requests.get(comment_api1,headers = headers) 
  45.    json_comment = response_comment.text 
  46.    json_comment = json.loads(json_comment) 
  47.    print('已完成 {}% !'.format(round(j/num*100,2))) 
  48.    time.sleep(3) 
  49.     
  50.          
  51. dataall.to_excel('用一个字归纳综合你的2018年.xlsx') 

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读