加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

用Python爬取金融市场数据

发布时间:2019-01-17 23:31:45 所属栏目:教程 来源:隠塵退士
导读:一、写在前面 因为在平常的事变中,必要对某信任网的信任在售和资管在售数据举办统计说明,可是一条一条的输入,显然过分耗时耗力,于是萌生了写个爬虫的设法。 一门计较机说话,可以当做是在仿照人的目标或意图来举办一系列举动或举措,以是在写代码之前

这里为了防范反爬,user_agent在多个里随机选,并行使了署理池(固然不多),而且我电脑端也举办结局域网ip署理。

  1. # 界说第2个函数que_res,用来构建request发送哀求,并返反相应response 
  2. def que_res(url): 
  3.  
  4.     # 构建request的第一步——构建头部:headers 
  5.     USER_AGENTS = [  
  6.         "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)", 
  7.         "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)", 
  8.         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)", 
  9.         "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)", 
  10.         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)", 
  11.         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)", 
  12.         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)", 
  13.         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)", 
  14.         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)", 
  15.         "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)", 
  16.         ] 
  17.     user_agent = random.choice(USER_AGENTS) 
  18.     headers = { 
  19.         'Accept-Language': 'zh-CN,zh;q=0.8', 
  20.         'Connection': 'keep-alive',  
  21.         'Host': 'www.某信任网.com', 
  22.         'Referer': 'http://www.某信任网.com/Product/Index.aspx', 
  23.         'User-Agent': user_agent, 
  24.         'X-Requested-With': 'XMLHttpRequest' 
  25.         } 
  26.  
  27.     # 构建request的第二步——构建request 
  28.     request = urllib.request.Request(url=url, headers=headers) 
  29.  
  30.  
  31.     # 提倡哀求的第一步——构建署理池 
  32.     proxy_list = [       
  33.         {'http':'125.40.29.100:8118'}, 
  34.         {'http':'14.118.135.10:808'} 
  35.         ] 
  36.     proxy = random.choice(proxy_list) 
  37.  
  38.     # 提倡哀求的第二步——建设handler和opener 
  39.     handler = urllib.request.ProxyHandler(proxy) 
  40.     opener = urllib.request.build_opener(handler) 
  41.  
  42.     # 提倡哀求的第三步——提倡哀求,获取相应内容并解码 
  43.     response = opener.open(request).read().decode() 
  44.  
  45.     # 返回值 
  46.     return response 

④ 理会第一层网页的内容

获取相应之后就是理会并提取数据了,第一层行使正则表达式的要领来举办。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读