行使了pandas的收集透视成果 groupby 分组排序。地区特性可视化直接回收 seaborn 完成,颜色行使调色板 palette 参数,颜色渐变,越浅声名越少,反之越多。可以调查到:
- 二手房均价:西城区的房价最贵均价约莫11万/平,由于西城在二环以里,且是热点学区房的聚积地。其次是东城约莫10万/平,然后是海淀约莫8.5万/平,其余均低于8万/平。
- 二手房房数目:从数目统计上来看,今朝二手房市场上较量火热的地区。海淀区和向阳区二手房数目最多,差不多都靠近3000套,事实大区,需求量也大。然后是丰台区,近几年正在改革建树,有赶超之势。
- 二手房总价:通过箱型图看到,各大地区衡宇总价中位数都都在1000万以下,且衡宇总价离散值较高,西城最高到达了6000万,声名衡宇价值特性不是抱负的正太漫衍。
Size特性说明
- f, [ax1,ax2] = plt.subplots(1, 2, figsize=(15, 5))
- # 建房时刻的漫衍环境
- sns.distplot(df['Size'], bins=20, ax=ax1, color='r')
- sns.kdeplot(df['Size'], shade=True, ax=ax1)
- # 建房时刻和出售价值的相关
- sns.regplot(x='Size', y='Price', data=df, ax=ax2)
- plt.show()

Size 漫衍:
- 通过 distplot 和 kdeplot 绘制柱状图调查 Size 特性的漫衍环境,属于长尾范例的漫衍,这声名白有许多面积很大且超出正常范畴的二手房。
Size 与 Price 的相关:
- 通过 regplot 绘制了 Size 和 Price 之间的散点图,发明 Size 特性根基与Price泛起线性相关,切合根基知识,面积越大,价值越高。可是有两组明明的非常点:1. 面积不到10平米,可是价值超出10000万;2. 一个点面积高出了1000平米,价值很低,必要查察是什么环境。
- df.loc[df['Size']< 10]

颠末查察发明这组数据是别墅,呈现非常的缘故起因是因为别墅布局较量非凡(无朝向无电梯),字段界说与二手商品房不太一样导致爬虫爬取数据错位。也因别墅范例二手房不在我们的思量范畴之内,故将其移除再次调查Size漫衍和Price相关。
df.loc[df['Size']>1000]
经调查这个非常点不是平凡的民用二手房,很也许是商用房,以是才有1房间0厅确有云云大高出1000平米的面积,这里选择移除。
- df.loc[df['Size']>1000]

从头举办可视化发明就没有明明的非常点了。
Layout特性说明
- f, ax1= plt.subplots(figsize=(20,20))
- sns.countplot(y='Layout', data=df, ax=ax1)
- ax1.set_title('衡宇户型',fontsize=15)
- ax1.set_xlabel('数目')
- ax1.set_ylabel('户型')
- plt.show()

这个特性真是不看不知道,各类厅室组合搭配,竟然尚有9室3厅,4室0厅等稀疏的布局。个中,2室一厅占绝大部门,其次是3室一厅,2室2厅,3室两厅。可是细心调查特性分类下有许多犯科则的定名,好比2室一厅与2房间1卫,尚有别墅,没有同一的叫法。这样的特性必定是不能作为呆板进修模子的数据输入的,必要行使特性工程举办响应的处理赏罚。
Renovation 特性说明
- df['Renovation'].value_counts()
- 精装 11345
- 简装 8497
- 其他 3239
- 毛坯 576南北 20
- Name: Renovation, dtype: int64
(编辑:湖南网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|