杭州二手房
零、写在前面
家里有在杭州买房的需求,自己还在忙着找工作,只能说结合着来了XD。
这几天恰好围观了下GitHub上的这个repository
star数蹭蹭蹭往上涨啊
其实作者的数据真的是相当得全了
但是作为一个强迫症,幻想着如果能在一张图内显示所有自己需要的数据就好了啊
一、数据
需要的数据
这篇看下来受益良多,大致也能分析出我们在去找中介之前,
自己的需求:
预算
交通
户型和大小
楼层
学区
朝向
etc…
网上所需要收集的数据:
- 小区位置
- 小区单价:其实这里还需少户型,但是这个数据批量不好找
- 小区年代:老房子会有很多问题,新房子肯定贵
- 地铁位置
- 主干道交通
- 周边学校、商场、医院、菜场、超市等
收集数据
小区的数据:
一个爬虫解决,链家的数据还是比较靠谱的。
地铁的数据:
杭州运行的地铁(截止2018.2.27)只有三条,在建2条,其余的均为规划。
人力把能找到的地铁经纬度全部找了出来,部分连周边道路都是规划中的除外(萧山有部分地铁站真的是荒郊野岭)
用了最简单也是最强大的excel,然后把数据导出为csv,再导入MySQL。
其余数据:
准备使用地图的api,所以不用收集。
处理数据
计算出每个地铁站和小区之间的距离,每个小区取最小值,为其最近地铁站。
UPDATE lianjia_xiaoqu AS r,
(
SELECT
a.housecode,
a.distance,
b.metro,
b.metro_line
FROM
( SELECT housecode, min( distance ) AS distance FROM xiaoqu_metro_distance GROUP BY housecode ) AS a,
xiaoqu_metro_distance AS b
WHERE
a.housecode = b.housecode
AND a.distance = b.distance
) AS t
SET r.metro = t.metro,
r.metro_line = t.metro_line,
r.distance = t.distance
WHERE
t.housecode = r.housecode
这里吐槽下百度地图的api,界面被高德甩了好几条街不说,导入的scv文件的格式固定完全不友好
但是链家爬下来的数据都是百度的,必须转换
参考:坐标转换
4月1日更新的分界线
在看了两周的房子以后,我定下来了……老破小