当空间数据遇上机器学习，城市的颜值有了新的度量方法-空间数据的作用

每个人都生活在一定的空间，城市的各项公共服务设施也需要占据一定的空间。通过对这些空间数据的挖掘和分析，我们能够比以往更科学、更清晰地观察我们所在的城市。

把机器学习应用到空间数据挖掘

我们公司主要做的是空间数据挖掘，在国内外，类似的公司目前并不是很多。后面要提到的很多案例，图表颜色看起来花花绿绿的，其实都是基于我们自己的产品和研究做出来的。

下面这张图算是我们的代表性产品之一，这张图的左上角区域是它的地图区域，左下角区域的折线图反映的是一些数值、特征值，右侧则是测试参数的设置、提交运算的区域。

虽然我们用了很多机器学习算法或者空间挖掘的一些算法，但是你会发现，操作起来还是非常简单的。

有人会问我们的数据来源是哪里?

我们和各种数据供应商有密切合作，有20多个大类、1000多个小类的POI兴趣点。除此之外，我们还获得了一些人口迁徙、房地产、企业等各类数据。

在进入具体的案例分析前，需要指出的是，这些案例都是基于城市各维度做的一些分析，而在这其中，机器学习扮演着重要的作用。结合具体的一个个案例，让大家对空间数据挖掘有一个更清晰的认识，这也是我今天要分享的主题。

案例一：通过机器学习给城市“画像”

先看下面这张图：

在这张图中，我们通过各种POI兴趣点的数据，用可视化来描绘城市用地情况。图中的各个分类其实我们都提前选好了参数，再利用机器学习自动分类。然后再选好用哪些维度来给城市“画像”。

从图中可以看到哪些区域是休闲娱乐休闲功能比较集中的地方、哪些是居住比较集中的地方、哪些是混合型的地方，以及能看出哪里是工厂、工业集聚区。通过这样分类，我们可以快速了解这些用地的分布情况。

接着再看第二张图。

这张图是基于上一张图的数据，我们做了更进一步的聚类，你会发现城市里边的用地情况显得更加清晰一些。

我虽然没有去过南昌，但是通过这张图我可以很容易分辨出来哪里是老城区，哪里是新城区，哪里是边缘的工业用地区，哪里可能是新开发的居住区等等。

案例二：发现北上广深地铁站周围的画风

可能前面两张图因为涉及到具体的业务应用场景，对于非土地研究行业的人来说可能相对较难理解。但下面这个例子会更好理解一些。

我们同样用机器学习的算法，通过POI兴趣点数据来识别一下北上广深四个城市的地铁站周边500米的情况。

可以看到，北上广深四个城市的差异还是非常明显的。

比如说北京，一眼望去，绿色的圆点较多，这代表的是其周围公共服务设施比较集中。这些公共服务设施包括政府机关办公地点、图书馆、文化场馆等等。

再看上海，蓝色的圆点比较多，这指的是地铁站周围各种居住小区较多。

而广州，红色和紫色的圆点更多，这指的是地铁站周边娱乐休闲类场所更多。从这些地铁站出来，更容易找到吃喝玩乐的地方。

深圳，则算是比较均衡的，不同颜色的分布并没有一个明显的特征。

案例三：从公共交通扩张看一座城市的“生长”

前面介绍的都是城市中的土地利用情况分析，接下来讲一讲交通等城市公共服务设施的情况。

这里以武汉市为例，下图可以看到2014年到2017年它的轨道站点数量增长非常快。

再来看公交站点的情况：从2014年的接近3000个到2016年3500多个，一直到2017年有将近5000个了。

然后我们把轨道交通的站点和公共交通的站点，聚合到城市用地上，这可以看做是公共交通的便捷度评价指标，可以看出这几年武汉市的公共交通便捷度确实发生了很大变化。

紧接着，我们再通过机器学习方法，研究武汉市的公共服务设施的分布变化。见下面两张图：

从这两张图我们可以看到，从2014年到2017年，随着公共交通便捷度的不增增加，武汉市的土地利用的混合程度也发生了大量变化。原来可能没有那么多POI兴趣点，但现在人的活跃地点增加了。

上图还能发现，随着公共交通的发展，武汉市的单一类型的用地是逐渐减少的。

通过这个研究，我们得出来的结论是，随着城市公共交通便捷度的增加，城市内部的活力也在逐渐增加。

案例四：通过OD数据和手机信令观察城市内部联系

下面再来举两个机器学习在研究城市通勤方面的具体例子。

首先来看我们队深圳出租车OD(从起点到终点)路径的分析图：

我们拿到了深圳市的出租车运行轨迹数据，然后利用机械学习帮我们分辨出深圳市出租车的OD数据模式，机器自动帮我们分出来非常显着的两个类型：左边呢，是早高峰的时候，你可以看到车流从北到南的比较多，右边这张绿的的图则是晚高峰的时候，从南到北的比较多。

通过这个分析，我们不仅了解到深圳居民乘出租车的模式，还能发现深圳市的南北向交通可能是有不足，而深圳市的公共交通现在是东西向的较多。

为什么会有这样的结论?因为出租车往往是人们公共交通出行的一种补充，只有在公共交通可能不太方便的时候，人们才会选择出租车多一点。

再来看看上海居民的通勤情况。这里我们是基于手机信令数据做了各区域间联系强度的分析，其中的色块代表着不同的分区：

大家可能对手机信令不太了解，这其实是反映人们出行或者活动的轨迹。我们一般使用手机的时候，运营商每隔一段时间，会对你的手机进行一次定位，然后运营商会判断你处在哪个基站的服务范围。

如果你前一个时刻在A基站服务范围内，然后后一个时刻又到了另外一个基站服务范围，说明你在移动，我们就可以判断你是从A点移动到了B点，所以能够反映人的出行规律。

然后我们用这样的数据做了上海市的分区，这些不同的色块代表的我们通过这些数据算出来的联系强度。

从上图中，我们发现了一个非常有意思的现象：在上海市范围内，奉贤、金山、松江等远郊地区，你会发现它的分区和它的行政边界是比较吻合的，这就说明这些郊区的居民一般都不太会来中心城区活动，而是在自己的行政区范围内活动。

而你看那些越靠近中心城区的地区，分区的划分跟它的行政边界的关系就会越不一致。比如说宝山区，可以看到这里的居民在杨浦区很活跃，是不是说明有很多在杨浦区工作的人居住在宝山呢?

此外，当我们按照人的出行规律进行分区之后，还可以把区和区之间的联系强度用可视化的方式展现出来：

上面的案例，主要是介绍了我们目前在利用机器学习进行空间数据挖掘方面的一些具体尝试，我们希望能够提供一个一站式的空间数据挖掘平台，既有数据，又有空间数据处理的工具，服务更多的数据人。