加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

用Python说明北京二手房房价

发布时间:2018-10-26 22:41:07 所属栏目:教程 来源:xiaoyu
导读:数据初探 起首导入要行使的科学计较包numpy,pandas,可视化matplotlib,seaborn,以及呆板进修包sklearn。 importpandasaspd importnumpyasnp importseabornassns importmatplotlibasmpl importmatplotlib.pyplotasplt fromIPython.displayimportdisplay plt.
副问题[/!--empirenews.page--]

数据初探

起首导入要行使的科学计较包numpy,pandas,可视化matplotlib,seaborn,以及呆板进修包sklearn。

  1. import pandas as pd 
  2. import numpy as np 
  3. import seaborn as sns 
  4. import matplotlib as mpl 
  5.  
  6. import matplotlib.pyplot as plt 
  7. from IPython.display import display 
  8. plt.style.use("fivethirtyeight") 
  9. sns.set_style({'font.sans-serif':['simhei','Arial']}) 
  10. %matplotlib inline 
  11.  
  12.  
  13. # 搜查Python版本 
  14. from sys import version_info 
  15. if version_info.major != 3: 
  16.     raise Exception('请行使Python 3 来完成此项目') 

然后导入数据,并举办起源的调查,这些调查包罗相识数据特性的缺失值,非常值,以及或许的描写性统计。

  1. # 导入链家二手房数据 
  2. lianjia_df = pd.read_csv('lianjia.csv') 
  3. display(lianjia_df.head(n=2)) 

用Python说明北京二手房房价

起源调查到一共有11个特性变量,Price 在这里是我们的方针变量,然后我们继承深入调查一下。

  1. # 搜查缺失值环境 
  2. lianjia_df.info() 

 用Python说明北京二手房房价

发明白数据集一共有23677条数据,个中Elevator特性有明明的缺失值。

  1. lianjia_df.describe() 

 用Python说明北京二手房房价

上面功效给出了特性值是数值的一些统计值,包罗均匀数,尺度差,中位数,最小值,最大值,25%分位数,75%分位数。这些统计功效简朴直接,对付初始相识一个特性优劣很是有效,好比我们调查到 Size 特性 的最大值为1019平米,最小值为2平米,那么我们就要思索这个在现实中是不是存在的,假如不存在没故意义,那么这个数据就是一个非常值,会严峻影响模子的机能。

虽然,这只是起源调查,后续我们会用数据可视化来清楚的展示,并证实我们的揣摩。

  1. # 添加新特性衡宇均价 
  2. df = lianjia_df.copy() 
  3. df['PerPrice'] = lianjia_df['Price']/lianjia_df['Size'] 
  4.  
  5. # 从头摆放各位置 
  6. columns = ['Region', 'District', 'Garden', 'Layout', 'Floor', 'Year', 'Size', 'Elevator', 'Direction', 'Renovation', 'PerPrice', 'Price'] 
  7. df = pd.DataFrame(df, columns = columns) 
  8.  
  9. # 从头审阅数据集 
  10. display(df.head(n=2) 

我们发明 Id 特性着实没有什么现实意义,以是将其移除。因为衡宇单价说明起来较量利便,简朴的行使总价/面积就可获得,以是增进一个新的特性 PerPrice(只用于说明,不是猜测特性)。其它,特性的次序也被调解了一下,看起来较量惬意。

 用Python说明北京二手房房价

数据可视化说明

Region特性说明

对付地区特性,我们可以说明差异地区房价和数目的比拟。

  1. # 对二手房地区分组比拟二手房数目和每平米房价 
  2. df_house_count = df.groupby('Region')['Price'].count().sort_values(ascending=False).to_frame().reset_index() 
  3. df_house_mean = df.groupby('Region')['PerPrice'].mean().sort_values(ascending=False).to_frame().reset_index() 
  4.  
  5. f, [ax1,ax2,ax3] = plt.subplots(3,1,figsize=(20,15)) 
  6. sns.barplot(x='Region', y='PerPrice', palette="Blues_d", data=df_house_mean, ax=ax1) 
  7. ax1.set_title('北京各大区二手房每平米单价比拟',fontsize=15) 
  8. ax1.set_xlabel('地区') 
  9. ax1.set_ylabel('每平米单价') 
  10.  
  11. sns.barplot(x='Region', y='Price', palette="Greens_d", data=df_house_count, ax=ax2) 
  12. ax2.set_title('北京各大区二手房数目比拟',fontsize=15) 
  13. ax2.set_xlabel('地区') 
  14. ax2.set_ylabel('数目') 
  15.  
  16. sns.boxplot(x='Region', y='Price', data=df, ax=ax3) 
  17. ax3.set_title('北京各大区二手房衡宇总价',fontsize=15) 
  18. ax3.set_xlabel('地区') 
  19. ax3.set_ylabel('衡宇总价') 
  20.  
  21. plt.show() 

用Python说明北京二手房房价

 用Python说明北京二手房房价

用Python说明北京二手房房价

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读