爬取两万多租房数据，汇报你广州房租近况

发布时间：2018-12-21 11:09:17 所属栏目：教程来源：zone7

导读：概述媒介统计功效爬虫代码实现爬虫说明实现跋文媒介提议在看这篇文章之前，请看完这三篇文章，由于本文是依靠于前三篇文章的：爬虫利器初体验(1) 传闻你的爬虫又被封了?(2) 爬取数据不生涯，就是耍混混(3) 八月份的时辰，因为脑洞大开，抉择用 pyt

先理会首页 url

def head_url_callback(self, response): 
    soup = BeautifulSoup(response.body, "html5lib") 
    dl = soup.find_all("dl", attrs={"id": "rentid_D04_01"})  # 获取各地域的 url 地点的 dl 标签 
    my_as = dl[0].find_all("a")  # 获取 dl 标签中全部的 a 标签， 
    for my_a in my_as: 
        if my_a.text == "不限":  # 不限地域的,非凡处理赏罚 
            self.headUrlList.append(self.baseUrl) 
            self.allUrlList.append(self.baseUrl) 
            continue 
        if "周边" in my_a.text:  # 破除周边地域的数据 
            continue 
        # print(my_a["href"]) 
        # print(my_a.text) 
        self.allUrlList.append(self.baseUrl + my_a["href"]) 
        self.headUrlList.append(self.baseUrl + my_a["href"]) 
    print(self.allUrlList) 
    url = self.headUrlList.pop(0) 
    yield Request(url, callback=self.all_url_callback, dont_filter=True)

再理会非首页 url

这里先获取到各个地域一共有几多页，才气拼接详细的页面地点。

爬取两万多租房数据，汇报你广州房租近况

再按照头部 url 拼接其他页码的url 
ef all_url_callback(self, response): # 理会并拼接全部必要爬取的 url 地点 
   soup = BeautifulSoup(response.body, "html5lib") 
   div = soup.find_all("div", attrs={"id": "rentid_D10_01"})  # 获取各地域的 url 地点的 dl 标签 
   span = div[0].find_all("span")  # 获取 dl 标签中全部的 span 标签， 
   span_text = span[0].text 
   for index in range(int(span_text[1:len(span_text) - 1])): 
       if index == 0: 
           pass 
           # self.allUrlList.append(self.baseUrl + my_a["href"]) 
       else: 
           if self.baseUrl == response.url: 
               self.allUrlList.append(response.url + "house/i3" + str(index + 1) + "/") 
               continue 
           self.allUrlList.append(response.url + "i3" + str(index + 1) + "/") 
   if len(self.headUrlList) == 0: 
       url = self.allUrlList.pop(0) 
       yield Request(url, callback=self.parse, dont_filter=True) 
   else: 
       url = self.headUrlList.pop(0) 
       yield Request(url, callback=self.all_url_callback, dont_filter=True)

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/12

首页

尾页

教你如何安装ghost xp	深度技术Ghost xp系统
ghost xp sp3电脑公司	8187无线网卡驱动,教您