加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

用Python说明北京二手房房价

发布时间:2018-10-26 22:41:07 所属栏目:教程 来源:xiaoyu
导读:数据初探 起首导入要行使的科学计较包numpy,pandas,可视化matplotlib,seaborn,以及呆板进修包sklearn。 importpandasaspd importnumpyasnp importseabornassns importmatplotlibasmpl importmatplotlib.pyplotasplt fromIPython.displayimportdisplay plt.

行使了pandas的收集透视成果 groupby 分组排序。地区特性可视化直接回收 seaborn 完成,颜色行使调色板 palette 参数,颜色渐变,越浅声名越少,反之越多。可以调查到:

  • 二手房均价:西城区的房价最贵均价约莫11万/平,由于西城在二环以里,且是热点学区房的聚积地。其次是东城约莫10万/平,然后是海淀约莫8.5万/平,其余均低于8万/平。
  • 二手房房数目:从数目统计上来看,今朝二手房市场上较量火热的地区。海淀区和向阳区二手房数目最多,差不多都靠近3000套,事实大区,需求量也大。然后是丰台区,近几年正在改革建树,有赶超之势。
  • 二手房总价:通过箱型图看到,各大地区衡宇总价中位数都都在1000万以下,且衡宇总价离散值较高,西城最高到达了6000万,声名衡宇价值特性不是抱负的正太漫衍。

Size特性说明

  1. f, [ax1,ax2] = plt.subplots(1, 2, figsize=(15, 5)) 
  2. # 建房时刻的漫衍环境 
  3. sns.distplot(df['Size'], bins=20, ax=ax1, color='r') 
  4. sns.kdeplot(df['Size'], shade=True, ax=ax1) 
  5. # 建房时刻和出售价值的相关 
  6. sns.regplot(x='Size', y='Price', data=df, ax=ax2) 
  7. plt.show() 

 用Python说明北京二手房房价

Size 漫衍:

  • 通过 distplot 和 kdeplot 绘制柱状图调查 Size 特性的漫衍环境,属于长尾范例的漫衍,这声名白有许多面积很大且超出正常范畴的二手房。

Size 与 Price 的相关:

  • 通过 regplot 绘制了 Size 和 Price 之间的散点图,发明 Size 特性根基与Price泛起线性相关,切合根基知识,面积越大,价值越高。可是有两组明明的非常点:1. 面积不到10平米,可是价值超出10000万;2. 一个点面积高出了1000平米,价值很低,必要查察是什么环境。
  1. df.loc[df['Size']< 10] 

 用Python说明北京二手房房价

颠末查察发明这组数据是别墅,呈现非常的缘故起因是因为别墅布局较量非凡(无朝向无电梯),字段界说与二手商品房不太一样导致爬虫爬取数据错位。也因别墅范例二手房不在我们的思量范畴之内,故将其移除再次调查Size漫衍和Price相关。

df.loc[df['Size']>1000] 

经调查这个非常点不是平凡的民用二手房,很也许是商用房,以是才有1房间0厅确有云云大高出1000平米的面积,这里选择移除。

  1. df.loc[df['Size']>1000] 

 用Python说明北京二手房房价

从头举办可视化发明就没有明明的非常点了。

Layout特性说明

  1. f, ax1= plt.subplots(figsize=(20,20)) 
  2. sns.countplot(y='Layout', data=df, ax=ax1) 
  3. ax1.set_title('衡宇户型',fontsize=15) 
  4. ax1.set_xlabel('数目') 
  5. ax1.set_ylabel('户型') 
  6. plt.show() 

 用Python说明北京二手房房价

这个特性真是不看不知道,各类厅室组合搭配,竟然尚有9室3厅,4室0厅等稀疏的布局。个中,2室一厅占绝大部门,其次是3室一厅,2室2厅,3室两厅。可是细心调查特性分类下有许多犯科则的定名,好比2室一厅与2房间1卫,尚有别墅,没有同一的叫法。这样的特性必定是不能作为呆板进修模子的数据输入的,必要行使特性工程举办响应的处理赏罚。

Renovation 特性说明

  1. df['Renovation'].value_counts() 
  • 精装 11345
  • 简装 8497
  • 其他 3239
  • 毛坯 576南北 20
  • Name: Renovation, dtype: int64

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读