常言道:”时空变幻莫测”。在自然界中,时空变化瞬息,常常难以捕捉其准确的规律。然而,时间与空间共同记录了过去存在的属性,通过它们我们可以发现事物存在的规律,从而预测未来的趋势,以提前应对未来情形或把握未来时机。
随着现代科学技术的发展,定位技术变得愈加普及。例如, GPRS 、位置传感器等技术的普遍应用,使得采集与空间相关的数据变得非常容易。而采集到时空数据后,人们理所当然希望利用这些信息的价值,洞察其中的关键因素以获取决策支持。那么,合适的数据分析方法就是提取有用价值的关键所在。
在现有的数据分析工具中,大多数模型仅考虑空间维度的作用,常用的时序模型也往往难以将同时发生在不同地点的信息关联起来。如果勉强使用这些模型,得出的模型结论常常不准确,预测的结果更加无所适从。
因此,IBM SPSS 提供了结合时间与空间的数据分析模型( Spatio-Temporal Prediction ,简称 STP )。研发 STP 模型的初衷即是为了帮助人们解决涉及时空数据的商业难题。它可以应用于天气与环境预测,智能交通解决方案,网络应用与安全分析,建筑或空间的能量管理等等。通过使用 STP 进行建模和预测,能够为管理者或者企业提供***的决策支持,以节省时间、成本和资源。本文主要阐述了时空分析算法的特点及其应用举例,来帮助人们了解其使用方法和实际的价值意义。
STP 模型特征
首先,STP 模型同时支持二维和三维空间场景,如地理信息,三维空间坐标等。因此,STP 模型能够被广泛使用于各类时空应用。
其次,STP 模型仅凭有限的样本点进行建模,就能够预测空间中未来任意位置的目标信息,因此它具备强大的预测能力,能够辐射到空间中任意点的信息。
***,STP 模型支持参数的假设分析。从而为用户提供未来的决策支持,使他们能够通过调整参数来适应预期目标,帮助用户提前防范或消除未来的问题与负面影响。
图 1. 时空模型应用示例
STP 数据特点
图 2. STP 模型数据格式
STP 算法实例
下面通过两个实例来讲述 STP 算法是如何被应用并解决用户问题的。
- Space dimension: 连续型变量, 同时支持二维和三维两种空间维度;
- Time dimension: 连续型变量,时间维度在 STP 使用之前需要转换为整数索引的形式。一般可使用 STEMDP 工具进行转换,也可手动转换;
- Predictors: 连续型或者离散型变量,对 Target 有影响的回归参数。没有指定参数时,必须包含常量系数;
- Target:连续型变量,模型创建与预测的目标参数。
图 3. STP 模型数据要求
* STP 要求数据必须包含一组在固定的位置信息上采集的相同时间序列的数据。
STP 建模流程
图 4. STP 简要流程图
Input Spatio-Temporal Data: 输入原始采集的时空数据。
Spatio-Temporal Data Preprocessing(STEMDP): STEMDP 是 IBM SPSS 研发的转换空间数据的工具。它能够将.shp 文件转换成空间坐标数据,并将时间格式转换为时间索引。如果数据本身不需要经过 STEMDP 处理,此步骤可省略。
Spatio-Temporal Prediction(STP): STP 使用 STEMDP 转换后的数据进行建模。建模过程中会对协方差矩阵的使用方法进行筛选。协方差矩阵可以应用参数化(variogram)或者非参数化(EOF)两种方式表示。默认为参数化方式,若参数化方式不满足条件,则应用非参数化方式。
Output STPXML & StatXML: STP 的建模结果被存储在 STPXML 和 StatXML 两种文件中。STPXML 中的模型信息被用于预测未来目标信息,StatXML 中内容被用于进行模型可视化的展示。其中,StatXML 还包含位置簇的信息。当空间维度是二维模型且非参数化方式被最终应用时,位置簇信息将被输出。
STP 应用案例
数据中心温控解决方案
从 2000 年至今,以互联网为主的 IT 技术迅速发展,大量的数据中心被建设使用。据 Federal 能源管理体系总结的《美国数据中心能源消耗报告》显示,仅以 2014 年为例,美国的数据中心电能消耗为 70 亿千瓦时,大约占美国总电力消耗的 1.8%。从 2000 年至 2005 年,IT 业经过初步发展,数据中心电能的消耗超过了 90%的增长,从 2005 年至 2010 年,IT 业快速发展时期电能消耗惊人增长 24%,而从 2010 年至 2014 年,IT 业逐渐进入稳定时段,电能消耗增长为 24%,以后未来五年每年将以大约 4%的增速平稳增长。中国同样经历了 IT 业发展的几个阶段,数据中心建设一直保持着飞速发展,能源消耗也居高不下。
能源消耗占数据中心运营成本的大约 70%左右。因此在全球范围内,关于如何降低数据中心电力消耗,提高能源利用率的问题迫在眉睫。
某一数据中心打算节省大量使用的电能成本。除却硬件与设备升级以外,还需要更为精准的温控与湿度管理,以高效的利用能源,节省成本并符合国家提倡的环保政策。
数据中心通过部署温度传感器和风速传感器来采集一段时间空间中样本位置的温度和风量情况,然后使用 STP 算法进行建模预测来帮助提升能源使用效率。
图 5. 在数据中心选取多个样本点布置温度传感器和风速传感器
1. 数据采集
图 6. 来自于传感器等设备采集的实时数据
STP 模型数据格式必须包含空间维度、时间维度、目标参数。输入参数可选。以上表格为从数据中心采集到的数据,它们将被对应到 STP 模型的数据输入中,用于模型创建。
空间维度是位置传感器的坐标位置。其中 u,v,w 分别表示水平位置与高度。
时间维度表征数据采集的时间。在 STP 使用之前,需要将具体的时间转换为时间索引,用户可使用 STEMDP 工具进行转换,也可手动进行转换。
输入参数中 x1、x2、x3 分别代表风速 、ACU 的作用以及高度 。 x4 和 x5 为其他可能影响的因素,但 STP 模型最终证明它们的影响非常弱,可忽略不计。
目标参数为样本位置的实际监测温度。
2. 数据建模
将以上数据作为输入在 STP 中创建模型,如下图所示。
图 7. STP 数据输入
图 8. STP 模型结果
从以上结果可知,参数 x4 和 x5 的 significance 值均大于 0.05,说明它们对模型的贡献较小,显著性较差,因此在监测结果时可省略对这两个数据的采集。
x1、x2、x3 均对模型贡献显著,因此主要对这三个参数进行搜集分析即可。
同时,MSE、R Square 等值表征该 STP 模型效果很好,误差很小。
3. 模型预测
根据给定输入参数,即风速、ACU 等值,对数据中心未来空间内温度进行预测。橙色部分标注 STP 预测的未来时间的温度相关信息。
$STP-y、$STPVAR-y、STPUCI-y 和$STPLCI-y 分别代表代表预测温度、方差、预测上下区间。实际 STP 可以预测未来连续时刻的任意空间位置温度。下面用散点热图表示该例中温度的分布情况。
图 9. 采集样本位置的***时间点的温度分布
图 10. 预测下一时间点在不同高度层上的立体温度分布效果图
图 11. 预测下一时间点在不同高度层上的平面温度分布效果图
图 12. 预测下一时间点在整个空间内立体温度分布效果图
STP 具备 score anywhere 的特性。即通过有限位置的样本点,便可以预测整个空间的温度分布。从以上温度效果图可知,随着高度增加,热气流往上上升,因此在高度 5.5 米时,造成热量大量聚集,温度过高,可以在该高度及以上范围进行足够的通风散热与降温。除此之外,在高度 4.5 米位置对应图形的右上方局部温度过高,因此考虑在此范围内加强设备运行以使温度下降。通过 STP 对整个空间温度的预测,用户可今早获悉数据中心的整体温度分布情况,从而避免局部温度过高而造成设备的损坏与不可逆损失。
STP 还具备 what-if-analysis 的特性。用户可以调整影响模型的可控参数来达到预期目标。调整风量与 ACU 后,STP 可以预计多久即可将温度下降到合理范围内。如下面一组图所示同一高度层上调整参数后温度的变化情况。
图 13. 预测同一高度层上未来时间段温度变化效果图
STP 解决方案在数据机房中的应用不仅限于温度预测,同时也可对湿度变化及与空间相关的任一因素进行分析预测。从而,数据中心的自动化管理将更为先进与优越,且更加有效、可靠的节省电能并减少人为干预。即使当前机房老旧、设备硬件来不及提升的情形下,也可为数据中心打造环保、智能的管理系统。
银行选址决策支持方案
某银行高管欲在某市建设新的银行分支机构,通过一些普查与调研数据他能够获取到每个区域的家庭收入、以及区域内所有银行现有的分支机构信息。通过这些信息,他考虑使用 SPSS 的 STP 模型来帮助其预测拥有潜在市场价值的地点。
他通过 STP 模型创建了两个模型,一个模型用于预测每个区域的收入信息、另一个模型用于预测这些区域未来的银行分支机构的数量。然后通过这两种预测结果,得出该市所有区域的潜在市场的分布情况,从而迅速高效地帮助其完成市场分析,以支持决策方案的可行性。
图 14. 预测未来银行数量供给情况
图 15. 预测未来居民收入情况
图 16. 预测未来潜在市场分布情况
结束语 (the end)
如果你是一个上班族,你是否时常想如何减少交通拥堵?如何高效地利用公共自行车资源?如何快速地在高峰期打到合适价格的车?
如果你是一个经营者,你是否经常为市场选择而踌躇不决?怎样才能选择一个商机***的地点而不至于错误的扩张带来不可估量的损失?怎样才能应用大数据分析帮助企业提升智能信息化的竞争力并降低成本?
STP 算法的应用将为你提供时空问题的***解决方案和预测支持。SPSS 同时提供各类广泛应用于商业数据中的算法,最全面的帮助人们做好大数据的分析与商业决策。