为什么我们的数据还不够开放?

大数据
6,000英里的马路,600英里的地铁,400英里的自行车道和0.5英里的电车轨道——这是罗斯福岛上测量到的数据。

[[151397]]

6,000英里的马路,600英里的地铁,400英里的自行车道和0.5英里的电车轨道——这是罗斯福岛上测量到的数据。

上述基础设施数据,来自市政机构的发布,比如:交通部会告诉你未来将有多少通向国外的公路,大纽约交通运输管理局会自信满满告诉你一条地铁轨道延伸的长度,同样,大多数市政机构会给出类似的数据。

以下是来自出租车管理委员会的报告:纽约市范围内大概有13,500辆出租车。

这些数据是不是很有趣?但是你有想过这些数据来自何处吗?

拥有这些数据固然很好,政府机构里总有人也许会说:或许我们的市民对这个或者那个数字感兴趣呢。所以他们就重新将原始数据捡拾起来,做些加加减减的运算,成了我们刚才看到的数字。

那么问题来了——我们怎么整理这些数字呢?

事实上,我们对这个城市有着太多的好奇和疑问,以至于这些机构无法回答详尽,如此以来,这些数据并没有发挥出应有的作用。

我们的政策制定者并没有忽视这个问题,早在2012年,Bloomberg市长就签署了一个数据开放的法案,该法律强制要求城市机构把他们得到的所有数据公开到线上且可搜索,在我们看来,这已经是全国范围内最全面和最有雄心的数据开放法案了。在签署法案的这两年以来,开放数据门户上已经公布了一千来条的数据,这真的很酷。

所以你不必只是单纯地去计算出租车的数量,而是应进一步的问一些问题,比如:纽约的交通高峰是在什么时刻?交通拥堵的确很令人头疼呀。

我们将出租车数量只看成数字,而GPS记录仪则记录走街串巷的每一次路程——根据这些数据,我做了一个纽约出租车全天时速均值的图表:从午夜时分到早上5点18分,车速一直在增加,随后一切都在变慢,直到早上8点35分,平均车速达到了11.5英里每小时并一直保持着这个车速,一直到下午六点半——这意味着,出租车全天都在以这个速度行驶,所以,纽约市没有交通高峰“时刻”,纽约“全天”都处于高峰状态。

这是不是很有道理的样子?这些都是数据的功劳。

如果你是交通规划师,你会很有兴趣了解这个情况;如果你想要快点去到某个地方,只需要把闹钟定在早上4点45分,那可就万事大吉了。

刚才我所说的“纽约全天高峰”这个结论并不是自然而来的,而是要归功于我们的信息自由法。

在出租车委员会的网站上,你想要获得你想要的数据的话,有一张表格要填,然后就坐等他们联系你吧——有一个叫做Chris Wong的人真的就这么做了。Chris来了之后,他们要求他带一个全新的硬盘,全新的哦,5个小时之后,数据就都拷贝下来了。像Chirs这样的人希望数据能够公开,于是把他拿到的数据挂在网上供下载,这就是刚才“纽约全天高峰”的原始数据的来源。

这个结论不得不让我们大吃一惊,当然GPS记录仪也十分给力。

在数据开放的路上,杀出程咬金——数据的“不易获得”和“不易读取”

市民们需要大老远拿一个移动硬盘取得这些数据,才得以让政府部门数据公开——这样的“公开”真的够“公开”了吗?这充其量只是“公共数据”,还算不得我们期待的“数据公开”呢。

我们希望市民可以足不出户就可以去分析政府的公开数据,而不是填写申请表长途跋涉带着硬盘漫长等待……

我还根据自行车事故数量,做了一个纽约市最危险的十字路口的地图。地图上红色部分最为危险。

由图可知,Manheim以东,尤其是它的低洼路段,是自行车事故高发路段,这可以理解,因为很多自行车从桥上下来;但是像Williamsburg和皇后大道(Avenue Queens)为什么也是危险地区,这是值得城市规划者考虑的。

这才是我们需要的数据,这才是我们一直在寻找的数据,这些数据并不是凭空得来的,它们经过了有心人对原始数据的再挖掘。

我们在呼吁开放数据的时候,遇到了另一个问题:PDF文件格式。

或许有人曾经尝试过从PDF上拷贝数据,这显然是吃力不讨好的活计。而你们需要的自行车事故数据,来自纽约警署,并且是成百上千页的PDF文件——要知道,光是复制粘贴这些数据,可能就要花上一两百个小时呢。

有一个叫做John Kraus的人,他没有选择复制粘贴,而是开发了一个“纽约警署数据解码程序”,然后登陆纽约警署官网,下载了这些人们需要的数据,并进行内容抓取,将结果放在网上,人们才得以做出“纽约市最危险十字路口”的地图。

从我们获取的数据来看,每次事故都是茫茫表格中的一列,很难想象:我们需要多少这样的PDF才能完成这个地图呢?我们能获得这些数据的PDF当然已经很好了,毕竟我们有“数据解码程序”,可是对于想要分析数据的市民来说,PDF格式远远不够,甚至太浪费时间。

我们的城市应该在“数据易得”和“数据易读”这两方面更加努力才行呀。

值得肯定的是,最近几个月,许多职能部门都公开了他们的数据;但是有太多的数据还被禁锢在PDF格式里,触不可及,比如犯罪数据、城市预算,只提供了PDF版本。试想一下,那些决定城市预算的立法者们,他们也无法对预算进行详细分析,那他们投票的意义是不是大打折扣了呢。

如此想来,我们的城市也许应该在“数据易读”上面做得更好。

当然也有很多不是PDF格式的数据,就比如我做的一个地图,关于纽约最脏的30条水道。

听起来虽然奇怪,但是我依据的是水中粪便大肠菌的含量。图上圆圈越大,水质越差,圈圈小的水比较干净。这个数据来自过去五年里,对内陆水道的水质监测数据。内陆的水道的圆圈都比较大,普遍都比较脏。

从中,我们可以有所收获的是:***,千万不要在排入小溪或运河的水域游泳,第二,通过这个方法,我得知纽约最脏的下水道在哪里。因为五年来,94%的水质样本数据都显示某地的下水道粪便大肠菌含量过高,触犯了“让人们无法游泳”的法律。

这些数据你可没办法在城市报告上看到,当然也不会出现在城市官网的首页上,尽管我们能达到这个原始数据就已经值得高兴了;由于这些数据还不是公布在开放数据门户网站上,所以获取这个原始数据也并不是那么简单。

要是你去开放数据门户上面逛一逛,你就会发现,我们能看到的是一连串的年份和月份;刚才那些数据是来自环保部门的网站,每个链接打开都是一个Excel表格,每个Excel表格又是如此不同,连标题都不同。你只能复制、粘贴、重新排版……

当然,依据这些数据作出“水质地图”是挺不错的。

 

责任编辑:李英杰 来源: 36大数据
相关推荐

2016-06-06 11:14:21

DockerDelphix

2015-09-21 14:29:33

物联网智能设备

2014-06-24 15:36:47

程序语言AppSwift

2021-07-05 10:13:29

人工智能AI数据

2013-11-04 09:43:34

FacebookHadoop大数据

2014-07-08 09:35:45

谷歌CEO乔布斯

2013-01-07 11:31:11

大数据大数据应用

2017-10-25 05:20:24

2012-11-28 10:05:46

信息大数据

2022-08-31 15:40:13

云原生数据

2013-01-08 10:19:35

大数据数据分析大数据全球技术峰会

2020-02-19 15:01:30

数据库SQL技术

2020-06-19 14:55:11

Kubernetes容器技术

2009-12-25 12:37:37

杀毒软件桌面安全

2024-04-19 14:02:23

2009-10-12 15:07:11

2022-01-12 09:00:00

安全漏洞数据

2020-04-06 14:45:22

云计算边缘计算网络

2011-06-08 10:30:08

MongoDB

2020-06-10 09:06:48

MongoDB架构高可用
点赞
收藏

51CTO技术栈公众号