京公网安备 11010802034615号
经营许可证编号:京B2-20210330
本次分析的数据源来自链家网。链家网中有”二手房-成交房源”这个板块,可以查看到所有通过链家成交的二手房的信息,其中最值得称赞的是成交价格的真实性。买过房子的朋友都清楚,房子的实际成交价格和在房管局信息中心的网签价格是不一样的,处于避税的考虑,一般来说网签价格都会比真实的成交价格低,因为在房屋买卖过程中的各种税费都是以网签价格来确定的。因此,一般政府部门出具的关于房价的报告,其实是不可信的。
所以分析的第一步,就是从链家网获取想要的数据。这里我利用Python做了一个简单的爬虫,获取了从2015年7月到2016年5月,在北苑地区通过链家成交的约2500套二手房成交的数据。经过手工的数据清洗,获取到的数据大概是这个样子:
其中,链家的数据在2015年11月之后精确到了成交日期,但是为了和2015年11月之前的数据粒度统一,我都统一成了成交月份.
链家可以查询到的最晚成交是两周前的数据,因此2016年5月数据在爬取时刻只有5月3日之前,所以在之后的分析中5月数据是不可用的
本次分析不是要解决什么问题,因此分析以数据探索为主,分成两大块:
3.1 整体涨幅显著
从整体来看,北苑地区房价在近10个月内经历了一个显著的涨幅:2016年4月相对2015年7月增幅达31%;2016年4月环比3月增长12%。
对照5月18日国家统计局发布的4月份70个大中城市住宅价格变动情况,发现政府的数据似乎温和了很多……信谁大家可以自己判断……
3.2 小区越高端、越新,涨幅越大;70年住宅涨幅大于50年商住两用
北苑地区楼盘有50余个,我选取了10个小区,分别看最近一段时间的价格趋势,如下图:
从图上可以清晰的看出分成了三快
1) 第一块由华贸城、润泽公馆、世华泊郡组成,目测涨幅在40%左右。这三个小区都是2012年之后建设的,高端大气,整体价格高,但是涨幅也最高
2) 第二块由北苑家园各种园组成,目测涨幅在30%左右。这些园大部分建筑年代在1998-2005之间,只有望春园是2008年,因此价格也是望春园要明显高于其他园。这些相对平民的小区涨幅就不如高端小区
3) 第三块是最下面的旭辉奥都,目测涨幅在25%左右。旭辉奥都是2008年建成的,不过是50年产权的商住两用,不限购,但是现在也可以落户、也是民水民电,但是价格确实相对较低,而且涨幅也没有其他小区快……难道只是因为50年的原因吗?
3.3 一居及四居户型涨幅最大
从下图可以看出,一居及四居的涨幅最大,猜测原因:一是此类户型数量较少,供给相对稀缺;二是目前国内一线城市贫富差距极大:
3.4 楼层对于涨幅的影响在各小区情况不同
我们从下图中可以看到,从整体上讲,低楼层的房子涨幅更高一些,但是具体到某一个小区,情况各不相同:
4.1 高端楼盘两居单价最高,主要是因为面积较小
下图统计了从2015.7到2016.4,按照不同户型的成交均价情况:
对于华贸城、润泽公馆、世华泊郡三个相对高档的小区,两居的单价都是最贵的。而其他小区没有一致的特征,但是超过一半的两居是最便宜的。
下图统计了两居的成交面积,可以发现三个高端楼盘的两居面积较小,平均面积在90平方米以下(实际情况是这三个小区最大的两居不超过100平米)。而其他小区的两居面积都较大。
所以,猜测购房者的普遍心态可能是这样:想购买两居的人都偏向新小区的小两居。
4.2 面积越大的房子单价会越低?看来不一定!
通常来说,面积越小的房子总价低,单价高(这一点尤其在学区房上体现的很明显),面积越大的房子总价高,单价低。但是我分析了几个小区的面积与成交价格的关系,发现没有统一的规律:
4.3 朝向貌似已经不重要了
我们常理认为,南向的房子应该价格较贵、增幅较大,但是我尝试对于朝向进行分析时,发现数据一片混沌,根本得不出有价值的结论。从整体和单个小区来看,不存在南向一定贵,东西一定便宜的现象,可见朝向在现在这个时代,重要性已经大不如前了
其实在这个简单的研究中,我只研究了房子自身的属性数据。但是房价所受到的影响太多了。除了房子本身的这些属性的分析,还有交通、配套设施、停车位、学区房、是不是有核电站在周围等等……
北苑地区有5号和13号两条地铁经过,交通相对便利,社区成熟,而且我认为支撑此地区房价最重要的因素,是望京已经成为北京一个新的CBD,原本就有爱立信、诺基亚、联想、美团等高科技企业,随着阿里巴巴、Uber这两个巨头的入驻,带来越来越多的高收入精英人才,望京地区的房价已经水长船高。作为紧靠大望京的北苑地区,会成为挤出效应的收益区域。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06