Python爬取北京二手房数据，说明北漂族买得起房吗？ | 附完备源码

发布时间：2018-08-23 01:46:53 所属栏目：教程来源：徐麟

导读：技能沙龙 | 邀您于8月25日与国美/AWS/转转三位专家配合切磋小措施电商拭魅战房价高是北漂们一向体谅的话题，本文就对北京的二手房数据举办了说明。本文首要分为两部门：Python爬取赶集网北京二手房数据，R对爬取的二手房房价做线性回归说明，得当方才打仗Py

Beautiful Soup爬取：

import requests 
import re 
from requests.exceptions import RequestException 
from bs4 import BeautifulSoup 
import csv 
import time 
 
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} 
 
def get_one_page(url): 
    try: 
        response = requests.get(url,headers = headers) 
        if response.status_code == 200: 
            return response.text 
        return None 
    except RequestException: 
        return None 
 
def parse_one_page(content): 
    try: 
        soup = BeautifulSoup(content,'html.parser') 
        items = soup.find('div',class_=re.compile('js-tips-list')) 
        for div in items.find_all('div',class_=re.compile('ershoufang-list')): 
            yield { 
                'Name':div.find('a',class_=re.compile('js-title')).text, 
                'Type': div.find('dd', class_=re.compile('size')).contents[1].text,#tag的 .contents 属性可以将tag的子节点以列表的方法输出 
                'Area':div.find('dd',class_=re.compile('size')).contents[5].text, 
                'Towards':div.find('dd',class_=re.compile('size')).contents[9].text, 
                'Floor':div.find('dd',class_=re.compile('size')).contents[13].text.replace('n',''), 
                'Decorate':div.find('dd',class_=re.compile('size')).contents[17].text, 
                'Address':div.find('span',class_=re.compile('area')).text.strip().replace(' ','').replace('n',''), 
                'TotalPrice':div.find('span',class_=re.compile('js-price')).text+div.find('span',class_=re.compile('yue')).text, 
                'Price':div.find('div',class_=re.compile('time')).text 
            } 
        #有一些二手房信息穷乏部门信息，如：穷乏装修信息，可能穷乏楼层信息，这时辰必要加个判定，否则爬取就会间断。 
        if div['Name', 'Type', 'Area', 'Towards', 'Floor', 'Decorate', 'Address', 'TotalPrice', 'Price'] == None: 
                return None 
    except Exception: 
        return None 
 
def main(): 
    for i in range(1,50): 
        url = 'http://bj.ganji.com/fang5/o{}/'.format(i) 
        content = get_one_page(url) 
        print('第{}页抓取完毕'.format(i)) 
        for div in parse_one_page(content): 
            print(div) 
        with open('Data.csv', 'a', newline='') as f:  # Data.csv 文件存储的路径,假如默认路径就直接写文件名即可。 
            fieldnames = ['Name', 'Type', 'Area', 'Towards', 'Floor', 'Decorate', 'Address', 'TotalPrice', 'Price'] 
            writer = csv.DictWriter(f, fieldnames=fieldnames) 
            writer.writeheader() 
            for item in parse_one_page(content): 
                writer.writerow(item) 
        time.sleep(3)#配置爬取频率，一开始我就是爬取的太猛，导致网页必要验证。 
 
if __name__=='__main__': 
    main()

正则爬取：我研究了良久，照旧没有办理。

这一进程中轻易碰见的题目有：

有一些衡宇穷乏部门信息，如穷乏装修信息，这个时辰必要加一个判定，假如不加判定，爬取就会自动终止(我在这里跌了很大的坑)。

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/13

首页

尾页

教你如何安装ghost xp	深度技术Ghost xp系统
ghost xp sp3电脑公司	8187无线网卡驱动,教您