加入收藏 | 设为首页 | 会员中心 | 我要投稿 惠州站长网 (https://www.0752zz.com.cn/)- 办公协同、云通信、物联设备、操作系统、高性能计算!
当前位置: 首页 > 教程 > 正文

用Python分析北京二手房房价

发布时间:2018-10-29 06:37:34 所属栏目:教程 来源:xiaoyu
导读:副标题#e# 数据初探 首先导入要使用的科学计算包numpy,pandas,可视化matplotlib,seaborn,以及机器学习包sklearn。 importpandasaspd importnumpyasnp importseabornassns importmatplotlibasmpl importmatplotlib.pyplotasplt fromIPython.displayimportdis

经过查看发现这组数据是别墅,出现异常的原因是由于别墅结构比较特殊(无朝向无电梯),字段定义与二手商品房不太一样导致爬虫爬取数据错位。也因别墅类型二手房不在我们的考虑范围之内,故将其移除再次观察Size分布和Price关系。

df.loc[df['Size']>1000] 

经观察这个异常点不是普通的民用二手房,很可能是商用房,所以才有1房间0厅确有如此大超过1000平米的面积,这里选择移除。

  1. df.loc[df['Size']>1000] 

 用Python分析北京二手房房价

重新进行可视化发现就没有明显的异常点了。

Layout特征分析

  1. f, ax1= plt.subplots(figsize=(20,20)) 
  2. sns.countplot(y='Layout', data=df, ax=ax1) 
  3. ax1.set_title('房屋户型',fontsize=15) 
  4. ax1.set_xlabel('数量') 
  5. ax1.set_ylabel('户型') 
  6. plt.show() 

 用Python分析北京二手房房价

这个特征真是不看不知道,各种厅室组合搭配,竟然还有9室3厅,4室0厅等奇怪的结构。其中,2室一厅占绝大部分,其次是3室一厅,2室2厅,3室两厅。但是仔细观察特征分类下有很多不规则的命名,比如2室一厅与2房间1卫,还有别墅,没有统一的叫法。这样的特征肯定是不能作为机器学习模型的数据输入的,需要使用特征工程进行相应的处理。

Renovation 特征分析

  1. df['Renovation'].value_counts() 
  • 精装 11345
  • 简装 8497
  • 其他 3239
  • 毛坯 576南北 20
  • Name: Renovation, dtype: int64

发现Renovation装修特征中竟然有南北,它属于朝向的类型,可能是因为爬虫过程中一些信息位置为空,导致“Direction”朝向特征出现在这里,所以需要清除或替换掉。

  1. # 去掉错误数据“南北”,因为爬虫过程中一些信息位置为空,导致“Direction”的特征出现在这里,需要清除或替换 
  2. df['Renovation'] = df.loc[(df['Renovation'] != '南北'), 'Renovation'] 
  3.  
  4. # 画幅设置 
  5. f, [ax1,ax2,ax3] = plt.subplots(1, 3, figsize=(20, 5)) 
  6. sns.countplot(df['Renovation'], ax=ax1) 
  7. sns.barplot(x='Renovation', y='Price', data=df, ax=ax2) 
  8. sns.boxplot(x='Renovation', y='Price', data=df, ax=ax3) 
  9. plt.show() 

 用Python分析北京二手房房价

用Python分析北京二手房房价

用Python分析北京二手房房价

观察到,精装修的二手房数量最多,简装其次,也是我们平日常见的。而对于价格来说,毛坯类型却是最高,其次是精装修。

Elevator 特征分析

(编辑:惠州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读