第一,你的目标或意图是什么,对付本例而言,我必要获取恣意某页至某页信任在售产物的下面数据:产物名称、刊行机构、刊行时刻、最高收益、产物限期、投资行业、刊行地、收益分派方法、刊行局限、最低收益、最高收益和利率品级分别环境这12个数据。
第二,假如是人,必要哪些举措来到达这个目标。我们来看下网页。举措就清楚了:
输入网址/搜刮要害字 > 进入网站 > 点击赤色框框里的信任产物和在售 > 录入下面绿色框框里的相干信息 > 发明信息不全,再点击这个产物,在详情页(再下一张图)继承录入。


2、开始爬取
既然举措清楚了,那就可以让计较机来模仿人的这个举措举办爬取了。
然后就是写代码的逻辑了。我们用做数学题常用的倒推法来梳理这个进程。
要想获取数据 < 你得理会网页给你的相应 < 你得有个相应 < 你得发送哀求 < 你得有个哀求request < 你得有个url。
然后我们再正过来解题:获取url > 构建request > 发送哀求 > 获取相应 > 理会相应 > 获取所需数据 > 生涯数据。
以是凭证这个步调,我们可以先做出一个大框架,然后在框架的基本上增补血肉。大框架,就是界说个主函数。
值得留意的是,本例中,每个产物的信息获取,我们都有二次点击的举措,即第一页数据不全,我们再点击进入详情页举办剩余数据的获取,因此,本例是有两层的数据获取进程的。第一层行使正则表达式,第二层行使bs4。
① 界说主函数
如下是这个主函数,前面的写入相干数据你可以先不管,这都是在第一步的获取url时,后补过来的。
回到前面的目标:提取恣意某页至恣意某页的数据,以是写个轮回是必需的,然后在轮回下方,两层网页的数据获取框架就出来了。(因为第二层网页的url是按照第一层网页的某个数据拼接出来的,而第一层网页是一下子提取整个页面全部产物的信息,以是第二层网页的提取也配置了个轮回,对第一层网页的全部产物,一个一个点进去举办提取)
- # 界说一个主函数
- def main():
-
- # 写入相干数据
- url_1 = 'http://www.某信任网.com/Action/ProductAJAX.ashx?'
- url_2 = 'http://www.某信任网/Product/Detail.aspx?'
- size = input('请输入每页表现数目:')
- start_page = int(input('请输入起始页码:'))
- end_page = int(input('请输入竣事页码'))
- type = input('请输入产物范例(1代表信任,2代表资管):')
- items = [] # 界说一个空列表用来存储数据
-
- # 写轮回爬取每一页
- for page in range(start_page, end_page + 1):
-
- # 第一层网页的爬取流程
- print('第{}页开始爬取'.format(page))
-
- # 1、拼接url——可界说一个分函数1:joint
- url_new = joint(url_1 ,size=size ,page=page ,type=type)
-
- # 2、提倡哀求,获取相应——可界说一个分函数2:que_res
- response = que_res(url_new)
-
- # 3、理会内容,获取所需数据——可界说一个分函数3:parse_content_1
- contents = parse_content_1(response)
-
- # 4、休眠2秒
- time.sleep(2)
-
- # 第二层网页的爬取流程
-
- for content in contents:
- print(' 第{}页{}开始下载'.format(page ,content[0]))
-
- # 1、拼接url
- id = content[0]
- url_2_new = joint(url_2 ,id=id) # joint为前面界说的第1个函数
-
- # 2、提倡哀求,获取相应
- response_2 = que_res(url_2_new) # que_res为前面界说的第2个函数
-
- # 3、理会内容,获取所需数据——可界说一个分函数4:parse_content_2,直接返回字典名目标数据
- item = parse_content_2(response_2 ,content)
-
- # 存储数据
- items.append(item)
- print(' 第{}页{}竣事下载'.format(page ,content[0]))
-
- # 休眠5秒
- time.sleep(5)
-
- print('第{}页竣事爬取'.format(page))
-
- # 生涯数据为dataframe名目CSV文件
- df = pd.DataFrame(items)
- df.to_csv('data.csv' ,index=False ,sep=',' ,encoding='utf-8-sig')
-
- print('*'*30)
- print('所有爬取竣事')
-
- if __name__ == '__main__':
- main()
② 获取url —— 第一层和第二层通用
因为我们必要会见两层的数据,以是但愿界说一个函数,能对两层的URL都可以举办拼接。 (编辑:湖南网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|