加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

用Python爬取金融市场数据

发布时间:2019-01-17 23:31:45 所属栏目:教程 来源:隠塵退士
导读:一、写在前面 因为在平常的事变中,必要对某信任网的信任在售和资管在售数据举办统计说明,可是一条一条的输入,显然过分耗时耗力,于是萌生了写个爬虫的设法。 一门计较机说话,可以当做是在仿照人的目标或意图来举办一系列举动或举措,以是在写代码之前
副问题[/!--empirenews.page--]

一、写在前面

因为在平常的事变中,必要对某信任网的信任在售和资管在售数据举办统计说明,可是一条一条的输入,显然过分耗时耗力,于是萌生了写个爬虫的设法。

一门计较机说话,可以当做是在仿照人的目标或意图来举办一系列举动或举措,以是在写代码之前,起主要弄清晰你要干什么,假如是你,你每一步的举措是什么,然后将这一步步的举措通过代码转达给计较机,让计较机高效的帮你完成即可。

本文团结正则表达式和较量风行的beautifulsoup(bs4),对网页举办理会并提取数据,因此在正式举办之前,有须要简朴先容下正则表达式和bs4.

二、基本常识

1、正则表达式

详细的具体先容可自行去网上补常识,这里只先容一些法则和常用的用法。

  1. # 正则表达式 
  2. 法则: 
  3.     单字符: 
  4.             .  : 除换行以外全部字符 
  5.             [] : 匹配荟萃中恣意一个字符 
  6.             d : 数字 
  7.             D : 非数字 
  8.             w : 数字、字母、下划线、中文 
  9.             W : 非数字、字母、下划线、中文 
  10.             s : 空格 
  11.             S : 非空格 
  12.     数目修饰: 
  13.              * : 恣意多次 
  14.              + : 至少1次 
  15.              ?: 非贪心方法,无关紧要 
  16.            {m} : 牢靠m次 
  17.           {m+} : 至少m次 
  18.          {m,n} : m到n次 
  19.     起始: 
  20.              ^ : 以啥啥开头 
  21.              $ : 以啥啥末了 
  22.     常用组合和函数: 
  23.             .* : 贪心方法恣意字符恣意次数 
  24.            .*? : 非贪心方法恣意字符恣意次数 
  25.            r = re.compile(r'正则表达式',re.S) :  
  26.                               最常用:将法则转达给某个参数以便重复行使 
  27.            re.matchre.search(字符串) 
  28.            re.findall(字符串) 
  29.            re.sub(正则表达式,替代内容,字符串) 

2、bs4

同样,具体常识自行补,这里只先容常用的用法:select团结选择器的用法。

  1. # bs4用法 
  2. 起首加载内里的BeautifulSoup: 
  3. from bs4 import BeautifulSoup 
  4. soup = BeautifulSoup('网页相应返来的对象') 

首要有以下几种提取法则:

  1. 1、获取标签 
  2.     soup.a   获取a标签(第一个) 
  3. 2、获取属性 
  4.     soup.a.attrs   获取a标签下全部的属性和值,返回的是字典 
  5.     soup.a['name'] 获取a标签下的name属性 
  6. 3、获取内容 
  7.     soup.a.string() 
  8.     soup.a.text()   提议行使这个 
  9. 4、find用法 
  10.     soup.find('a')  找到第一个a 
  11.     soup.find('a',title='')  附加前提的查找 
  12. 5、find_all用法 
  13.     soup.find_all('a')  找到全部a 
  14.     soup.find_all(['a','b']) 找到全部a和b 
  15.     soup.find_all('a',limit=5) 找到前5个a 
  16. 6、select用法——重点 
  17.     团结选择器行使,常用的选择器如下: 
  18.     标签选择器:如div暗示为div 
  19.     类选择器:.暗示,如class = 'you'暗示为.you 
  20.     id选择器:#暗示,如id = 'me'暗示为#me  
  21.    组合选择器:如div,.you,#me    
  22.    层级选择器:如div .you #me暗示选取div标签下的you类下的id为me的内容 
  23.               再如div > .you > #me,> 则暗示只能是下面一级 

三、开始拭魅战——爬取某信任网的信任在售数据

1、爬取前的筹备事变——梳理好代码的逻辑

正如前面所说,写代码之前,起主要清晰你想要干什么,假如是你,你是什么样的举措来到达你的这个目标或意图。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读