加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Python爬取北京二手房数据,说明北漂族买得起房吗? | 附完备源码

发布时间:2018-08-23 01:46:53 所属栏目:教程 来源:徐麟
导读:技能沙龙 | 邀您于8月25日与国美/AWS/转转三位专家配合切磋小措施电商拭魅战 房价高是北漂们一向体谅的话题,本文就对北京的二手房数据举办了说明。 本文首要分为两部门:Python爬取赶集网北京二手房数据,R对爬取的二手房房价做线性回归说明,得当方才打仗Py

Beautiful Soup爬取:

  1. import requests 
  2. import re 
  3. from requests.exceptions import RequestException 
  4. from bs4 import BeautifulSoup 
  5. import csv 
  6. import time 
  7.  
  8. headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} 
  9.  
  10. def get_one_page(url): 
  11.     try: 
  12.         response = requests.get(url,headers = headers) 
  13.         if response.status_code == 200: 
  14.             return response.text 
  15.         return None 
  16.     except RequestException: 
  17.         return None 
  18.  
  19. def parse_one_page(content): 
  20.     try: 
  21.         soup = BeautifulSoup(content,'html.parser') 
  22.         items = soup.find('div',class_=re.compile('js-tips-list')) 
  23.         for div in items.find_all('div',class_=re.compile('ershoufang-list')): 
  24.             yield { 
  25.                 'Name':div.find('a',class_=re.compile('js-title')).text, 
  26.                 'Type': div.find('dd', class_=re.compile('size')).contents[1].text,#tag的 .contents 属性可以将tag的子节点以列表的方法输出 
  27.                 'Area':div.find('dd',class_=re.compile('size')).contents[5].text, 
  28.                 'Towards':div.find('dd',class_=re.compile('size')).contents[9].text, 
  29.                 'Floor':div.find('dd',class_=re.compile('size')).contents[13].text.replace('n',''), 
  30.                 'Decorate':div.find('dd',class_=re.compile('size')).contents[17].text, 
  31.                 'Address':div.find('span',class_=re.compile('area')).text.strip().replace(' ','').replace('n',''), 
  32.                 'TotalPrice':div.find('span',class_=re.compile('js-price')).text+div.find('span',class_=re.compile('yue')).text, 
  33.                 'Price':div.find('div',class_=re.compile('time')).text 
  34.             } 
  35.         #有一些二手房信息穷乏部门信息,如:穷乏装修信息,可能穷乏楼层信息,这时辰必要加个判定,否则爬取就会间断。 
  36.         if div['Name', 'Type', 'Area', 'Towards', 'Floor', 'Decorate', 'Address', 'TotalPrice', 'Price'] == None: 
  37.                 return None 
  38.     except Exception: 
  39.         return None 
  40.  
  41. def main(): 
  42.     for i in range(1,50): 
  43.         url = 'http://bj.ganji.com/fang5/o{}/'.format(i) 
  44.         content = get_one_page(url) 
  45.         print('第{}页抓取完毕'.format(i)) 
  46.         for div in parse_one_page(content): 
  47.             print(div) 
  48.         with open('Data.csv', 'a', newline='') as f:  # Data.csv 文件存储的路径,假如默认路径就直接写文件名即可。 
  49.             fieldnames = ['Name', 'Type', 'Area', 'Towards', 'Floor', 'Decorate', 'Address', 'TotalPrice', 'Price'] 
  50.             writer = csv.DictWriter(f, fieldnames=fieldnames) 
  51.             writer.writeheader() 
  52.             for item in parse_one_page(content): 
  53.                 writer.writerow(item) 
  54.         time.sleep(3)#配置爬取频率,一开始我就是爬取的太猛,导致网页必要验证。 
  55.  
  56. if __name__=='__main__': 
  57.     main() 

正则爬取:我研究了良久,照旧没有办理。

这一进程中轻易碰见的题目有:

  • 有一些衡宇穷乏部门信息,如穷乏装修信息,这个时辰必要加一个判定,假如不加判定,爬取就会自动终止(我在这里跌了很大的坑)。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读