加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Python爬取北京二手房数据,说明北漂族买得起房吗? | 附完备源码

发布时间:2018-08-23 01:46:53 所属栏目:教程 来源:徐麟
导读:技能沙龙 | 邀您于8月25日与国美/AWS/转转三位专家配合切磋小措施电商拭魅战 房价高是北漂们一向体谅的话题,本文就对北京的二手房数据举办了说明。 本文首要分为两部门:Python爬取赶集网北京二手房数据,R对爬取的二手房房价做线性回归说明,得当方才打仗Py

数据洗濯

  1. data<-read.csv("E://Data For R/RData/data.csv") 
  2. DATA<-data[,-c(1,7)]#将Name和Address两列去掉 
  3. DATA[sample(1:nrow(DATA),size=10),] 

Python爬取北京二手房数据,说明北漂族买得起房吗? | 附完备源码

  1. #在爬取的时辰插手了判定,以是不知道爬取的数据中是否存在缺失值,这里搜查一下 
  2. colSums(is.na(DATA)) 

Python爬取北京二手房数据,说明北漂族买得起房吗? | 附完备源码

  1. #这里将Type的寝室客堂和卫生间分为三个差异的列 
  2. ##这里必要留意,有一些衡宇没有客堂如:1室1卫这时辰必要单独处理赏罚,尚有一些没有茅厕信息。 
  3. library(tidyr) 
  4. library(stringr) 
  5. DATA=separate(data=DATA,col=Type,into = c("Bedrooms","Halls"),sep="室") 
  6. DATA=separate(data=DATA,col=Halls,into = c("Halls","Toilet"),sep="厅") 
  7. ##将卫生间后头的汉字去掉 
  8. DATA$Toilet<-str_replace(DATA$Toilet,"卫","") 
  9. ###如图六,将Halls中带有汉字去掉,由于有一些衡宇信息没有客堂,如:1室1厅,在分成寝室和客堂时,会将卫生间分到客堂一列。 
  10. DATA$Halls<-str_replace(DATA$Halls,"卫","") 
  11. ##取出没有客堂信息的数据,这些数据被separate到Halls列 
  12. newdata<-DATA[which(DATA$Toilet %in% NA),2] 
  13. newdata 
  14. ##将没有客堂的衡宇信息Halls列添补为0 
  15. DATA[which(DATA$Toilet %in% NA),2]<-0 
  16. DATA[which(DATA$Toilet %in% NA),3]<-newdata 
  17. colSums(DATA=="") 
  18.   Bedrooms      Halls     Toilet       Area    Towards      Floor   Decorate  
  19.          0          0          2          0          0          0          0  
  20. TotalPrice      Price  
  21.          0          0  
  22.  
  23. ##发明有2个茅厕没有信息,将其填写为0。 
  24. DATA$Toilet[DATA$Toilet == ""]<-0 

Python爬取北京二手房数据,说明北漂族买得起房吗? | 附完备源码

  1. ##这里将Area后的㎡去掉 
  2. DATA$Area<-str_replace(DATA$Area,"㎡","") 
  3.  
  4. ##查察Towards的范例 
  5. table(DATA$Towards) 
  6.  
  7. Towards    北向  东北向  东南向  对象向    东向  南北向    南向  西北向  
  8.      51      25      23      50      65      32    1901     678      38  
  9.  西南向    西向  
  10.      28      26  
  11. ##将Floor信息带括号的所有去除 
  12. DATA$Floor<-str_replace(DATA$Floor,"[(].*[)]","")##正则表达式 
  13. #查察Floor的种别信息 
  14.  低层  地下  高层 共1层 共2层 共3层 共4层 共5层  中层  
  15.   632    32   790    36    61   101    68   130  1016  
  16.  
  17. #别离将TotalPrice和Price后头的万元、元/㎡去掉 
  18.  
  19. DATA$TotalPrice<-str_replace(DATA$TotalPrice,"万元","") 
  20. DATA$Price<-str_replace(DATA$Price,"元/㎡","") 
  21.  
  22. head(DATA) 

Python爬取北京二手房数据,说明北漂族买得起房吗? | 附完备源码

  1. ##将数据转换名目 
  2. DATA$Bedrooms<-as.factor(DATA$Bedrooms) 
  3. DATA$Halls<-as.factor(DATA$Halls) 
  4. DATA$Toilet<-as.factor(DATA$Toilet) 
  5. DATA$Area<-as.numeric(DATA$Area) 
  6. DATA$TotalPrice<-as.numeric(DATA$TotalPrice) 
  7. DATA$Price<-as.numeric(DATA$Price) 
  8. DATA$Towards<-as.factor(DATA$Towards) 
  9. DATA$Decorate<-as.factor(DATA$Decorate) 
  10. str(DATA) 

Python爬取北京二手房数据,说明北漂族买得起房吗? | 附完备源码

以上数据洗濯完毕。

03、描写性说明

这部门的首要思绪是探讨单个自变量对因变量的影响,对房价的影响身分举办模仿探讨之前,起首对各变量举办描写性说明,以起源判定房价的影响身分。这里探讨各个身分对总价影响。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读