大数据治理美国 正面临不少新问题

数据库
本文以美国为背景,对有关开放政府数据与大数据的关键政策问题进行评论,然后为大数据和开放政府数据的实践提供建议,以推进数据驱动的创新。

大数据应用

2012年3月奥巴马政府发布了“大数据研究和发展计划”。作为回应,美国国家科学基金会、美国国家卫生研究院、国防部、能源部和美国地质调查局都在投资大数据创新。美国很多公司正在围绕大数据的采集和利用能力来开展他们的商业活动,并将这些活动作为其产品或运营后端的一部分。科研群体、政府和私营部门也正在加速生成各种主题的大规模数据集,包括:气候变化、交通模式、健康和疾病数据、购买行为以及通过社会化媒体互动表现出的社会行为。大数据应用的案例有:

Inrix公司和新泽西州运输部之间的合作伙伴关系。Inrix公司通过汽车和移动电话GPS装置上的信号和数据,采集主干道上的车速数据,然后实时向新泽西州运输部警示任意主干道上的路况险情,同时向司机的车载GPS装置或移动电话发送警示来提醒司机注意路况险情。

气候公司(The Climate Corporation)是一家天气保险公司,他们制作保单来弥补联邦农作物保险和因气候造成的农民损失之间的差额。该公司通过庞大的传感器网络分析和预测2000万美国农田的气温、降水、土壤湿度和产量。在知晓高温天的天数以及土壤湿度数据后,建立的模型来帮助其预判农民需要的天气保险金额以及公司需要支付的保费。

纽约州能源研究和发展管理局运用一系列的大数据技术来评估气候变化对纽约州的影响,并为农业、公共卫生、能源和交通运输等领域提供应对气候变化的策略。这一应用也被引入美国疾病控制中心,它正与美国其他10个州和城市一起开展“阅读州和城市计划”,共同研究和应对气候变化,而大数据技术是其中一个非常重要的组成部分。

美国大数据治理模式也面临不少新问题

开放政府数据

大数据战略,往往建立在开放政府数据的基础上。开放政府数据在美国并不是一个全新的概念。多年来,政府的信息和数据在不断变化,采集和发布政府数据的方法和途径也同样经历了这些变化。开放政府数据在催生新的科学研究成果、加快经济增长、为政策制定提供信息以及制定为民服务的新政策方面都深具潜力。有关开放政府数据的政策选择将对大规模数据集应用的创新和研究、政府开放和透明以及其他众多领域产生深远影响。

作为奥巴马政府开放政府计划的一部分,2010年美国政府建立data.gov网站,向公众开放“高价值”的数据集。这一政府开放数据平台现已可直接为用户提供海量的原始政府数据,并期待用户能挖掘这些数据的新的利用价值,从而以过去无法实现的方式加深我们对政府活动和更庞杂的社会事务的认知。这些技术方法推动了数据的可获取、开放和透明,同时又让公众、组织、社区和其他社会成员在现有数据的基础上产生新的创新性认知。作为一个面向公众的平台,它可成为一个促进协作、存储数据集、推动社区参与和提供参与机会的工具。除此之外,数据还可通过这些平台以多种格式(如CSV,XML和Excel等)储存和开放。每种数据格式都有其特定含义,可限制或促进数据的应用。

现行政策分析

关于大数据和开放政府数据的一个关键问题是,政府信息和数据的管理、使用、再利用和可获取政策。美国有一整套复杂且不断变化的信息政策(法律、法规和备忘录),用来管理信息的生命周期,从信息的生成、信息的传播、再到信息处理和归档,涉及到如何在数据可获取、隐私、安全问题、数字资产管理、归档和保存等问题上寻求平衡。这个政策框架尽管也不断调整,但仍落后于技术的进步,这一脱节使人们对美国现行政策框架是否足以应对大数据带来的问题产生了疑问,并提出以下几个关键问题:

我们能确保数据的可获取性吗?在大数据时代我们如何保护隐私?我们如何确保数据的质量和准确性?在目前的归档和保存条件下,如何管理我们的数字资产?大数据时代我们能否发展有力的数据再利用政策?

下文将具体分析在大数据和开放政府数据时代,当前美国的信息政策框架的现状和滞后性,并给出了信息政策调整的建议。

(一)数据可获取和发布

美国管理和预算办公室在数据获取和发布方面为政府机构提供了广泛的指导,他们确立了以下原则:政府机构必须及时、公平、有效地以适当的方式把信息发布给公众。政府机构必须建立和维护“信息发布产品清单”。政府机构必须考虑到公民获取能力的差异,让那些不能上网的公众也能获得重要信息。政府机构应制定多种策略来发布信息。当使用电子媒体时,那些涉及妥善管理和文件归档的规定同样适用。政府机构需要评估并确定最合适的方法来采集和保存文件。

美国管理和预算办公室也为政府机构网站的信息管理提供广泛的指导。要求政府机构对提供的所有在线应用进行标准化的风险评估,并要求政府机构执行多项与隐私相关的措施。其他有关信息获取和传播的政策工具还包括:1.要求政府机构对英语能力有限的人提供适当的信息获取方式,涉及所有的“联邦的项目和活动”。这个政策的目标是为了解决公民使用电子政务的鸿沟,尤其是那些不以英语为母语的人。2.规定残疾人在公共教育中可平等获取所有的电子材料。规定政府在提供服务和福利,以及开展政民沟通时,不得将残疾人排除在外。保证残疾人平等地参与政府活动和获取政府信息,并确立了他们获取信息和使用通信技术的一般权利。3.推进和实施了线上信息和通信技术的可获取性。4.由联邦政府采购、维护或使用的电子和信息技术必须满足特定的获取性标准,以确保残疾人能够获取在线信息和服务。

(二)隐私、安全、准确性和归档

政府网站正变成双向社区,增加了网络病毒或其他攻击载体侵入政府环境的可能性,同时也增加了信息意外泄露的可能性。信息政策框架也做出了相应调整以应对这一变化。比如,管理和预算办公室要求政府机构尽可能采取足够的安全措施,以确保信息不被篡改,并确保其准确性、保密性和可获取性,以符合政府机构的预期和用户的需求。

然而,当前的相关政策并不能保证解决大数据所带来的大量使用不当问题。对个人身份信息、政府数据与信息的安全性以及对公开数据的准确性的担忧,都与大数据相关。大数据的质量、可靠性和权威性是政府、科研群体以及非政府组织和私营部门最关注的问题。未经确认或验证的数据、或用错误方法采集到的低质量数据可能会导致错误的研究发现,进而严重影响一系列的决策和政策制定。

data.gov的数据管理政策,致力于解决这些问题,具体包括:规定负责采集和发布数据的政府机构要确保数据的准确性、及时性和整体质量。要求政府机构进行版本控制,确保数据集具有明确的标签。要求政府机构确保data.gov上发布的数据不涉及国家安全。要求政府机构确保发布的数据符合保密和隐私保护的相关规定。

沿着信息的生命周期继续往下走,大数据的使用、储存和保存等方面也面临各种挑战。推动大数据的开放和可获取,与促进大数据的利用具有显着差别。此外,特定领域的数据应用(即只有某个特定领域的科学家们使用)和广泛的跨学科数据应用(即跨学科领域和跨常见研究领域的应用)之间也有不同。

同时,需要为大规模科研数据集建立专门的数据库。构建数据社区的一个要素是迫切需要整合和管理来自不同源头和不同部门的数据。这些数据流必须在政府、私营部门、公共事业公司、各种设备和个人之间流动交汇,才能真正有用,并为社区和国家发展提供信息。因此,有必要在各个实体间建立、采用并遵守一套正式的数据管理标准和操作办法,以保障数据兼容性、命名规则和组织架构。而且,为确保研究人员们对于数据集的知情使用,也需要制作具有明确定义的数据文件和编码本。

“聚合”指的是用户将从不同网站得到的数据结合起来,大数据使当下信息政策环境变得更为复杂。管理和预算办公室要求各政府机构的公共网站,提供开放且符合业界标准格式的数据,使得用户能够整合、分解、操纵或分析数据以满足他们的需求。目前经过聚合的数据往往缺乏正式的授权和验证程序。正如data.gov网站所提出的,“一旦数据从该政府机构页面被下载后,政府不再能保证其质量和即时性。此外,美国政府无法对取自data.gov的数据的任何分析结果做担保”。虽然这一免责声明限定了data.gov的责任,但二次数据使用问题仍需要解决。

大数据的监管也是一个不可忽视的问题。数字化监管涉及对电子研究数据的维护、保存和增值,并贯穿其整个生命周期,例如数字资产的概念问题、数字资产的创造、获取和使用问题,以及数字资产的评价和选择工作。随着新的电子数据资产的持续增长,有必要为大数据的整个生命周期制定有效的数据管理策略。

最后,在诸如data.gov社区这样的数字“开放空间”里,永久的、最终的文件越来越少,而几乎所有文件管理和归档工作都是基于这些文件建立起来的。可现在由于使用非政府的第三方应用程序或软件,且数据调整和修改不断发生,使得数据所有权、储存进度以及归档工作都面临巨大的挑战。

政策和治理原则

当政策制定者考虑、辩论并制定政策时,当私有部门、非营利部门与政府在进行合作时,我们会发现对开放政府数据和大数据立法或者制定一套政策和治理结构非常困难。政府需要在进行数据开放并利用大数据技术的时候,需要制定一套指导原则。而且这些指导原则只是一个开始,并非结束。随着对大数据创新的理解不断深入,我们需要建立并维持一个强有力的政策和治理框架。这些指导原则是:

1.不造成伤害。在政府、私有部门和公众社会间共享数据可能涉及到私人的、敏感的个人信息,而这些组织中的大多数并不拥有相匹配的数据管理、利用和再利用政策。当非政府组织也是大数据合作项目的参与者时,个人不应该被强制或被要求将政府出于某种目的而采集的数据共享给这些非政府组织。

2.长远眼光。数据的长期共享、保存、检索以及获取将要求超越当前技术水平,具有长远眼光。需要保证大数据及其附属产品能在未来的10年、20年乃至更长的时间里都能获得。从一开始就坚持遵守开放数据标准及技术标准可有效推动这一过程。

3.数据表述。我们需要保证数据元素、数据采集单位(例如,是个人层级还是社区层级)、或数据的其他方面都被很好地界定,同时数据采集和使用政策得到清楚地表述。

4.承担责任。大数据对于提供信息和制定政策潜力巨大,但也可能造成损害。大数据通常包含了多种数据集的聚合,而这些数据集最初并不是出于整合的目的而生成的。在大数据创新中,政府需要对他人使用其数据所造成的损害承担责任,确保对公众的保护。

政策建议

大数据带来了一系列问题,而当前的政策框架却无力解决这些问题,这就需要一个大数据的治理模式。这一治理模式需要考虑以下具体问题:

隐私。在个人、家庭、设备或其他层面,大数据包含了各种个人信息数据。隐私保护法律和政策可能会与大数据所带来的机遇相冲突,而与此同时,大数据正在侵犯个人或社区的隐私权。

数据再利用。数据通常是由政府机构或其他组织所采集的,一般与社会服务的被服务者相联系。另外,个人、政府机构或公司常拥有在允许范围内使用数据的权力,以及采集和使用数据时的隐私保护政策。当大数据应用不断整合来自不同机构、政府以及家庭的数据集以期发现新思路并为决策和政策制定提供信息时,向个人清晰地进行数据利用和再利用政策的指导也非常必要,从而使个人能够在知情的情况下,做出与其个人数据相关的决定。

数据准确性。由于新的数据集是由组合来自不同政府机构、研究人员、科学家、私人部门以及公众群体的原本各不相干的数据而生成,因此需要制定并遵守数据质量标准。因某一特殊目的而采集的数据并不一定与其他数据集完全兼容,而这可能会导致误差以及一系列的错误结论。Data.gov网站上的免责申明将这一责任交给了发布数据的政府机构,以及下载并使用这些数据的组织或个人。数据的使用会对社会、政策以及科学项目产生巨大影响,而以上做法并不是对数据使用的恰当回应。

数据可获取。用什么政策去管理这些新产生的数据集的可获得性和保存?此外,大数据使公众获取政府数据集成为一个问题,因此需要建立类似data.gov的公开数据获取平台。

归档和保存。大数据如果脱离其所嵌入的技术和分析平台,原始数据本身不能保证导出相似的发现,因此同时保护数据和用于分析数据的技术就至关重要。另外,我们还必须考虑由非政府机构建立的研究数据集的归档和长期保存,例如由政府研究机构资助的大学和研究中心。需要制定整体数据管理战略,以确保较小的数据集的可用性,使之能成为作为大数据的一部分。

数据监管。大数据创新的主要目标之一就是鼓励社区整合多个大规模数据集以创造新的知识。大数据不一定生来就是大数据,而是通过对许多小的数据集的累积、修改、合并以及加工而来。数据的每一种排列都是一个新的数据集,需要存档、管理及监管。

建立可持续的数据平台和架构。为了组织、监管、储存并将数据集开放给科研群体、私有部门、其他部门以及公众,需要建立强大的技术基础设施。这些平台需要同时在物理层面(技术)和智力层面(组织的)将大数据开放,同时需要将一系列技术、分析技能以及信息架构进行无缝隙整合。这些基础设施必须能像data.gov那样能够支持面向公众的通用平台, 以及面向特别机构的包含大量大规模数据集的专业平台。

数据标准的建立。大数据要求在技术层面能实现互操作,同时在数据层面遵守元数据标准。不同的领域可能会有不同的元数据标准。大数据数据集的生成、发展及发布需要考虑合适的数据标准格式,从而推进协作和数据的再利用。此外,对于对外发布的文档也需要建立文档标准等。另外,对数据的局限性也需要做出清晰的说明。

鼓励跨部门数据共享政策。由于大数据涉及到数据在不同系统、政府和部门之间的实时传递,这就需要建立一个数据共享和互操作的框架。利用了协作分析技术的大数据创新,需要对数据采集和汇报系统进行无缝隙整合。这就有必要调整信息和数据政策以反映这一整合的数据环境。

大数据创新对政策制定和决策有重大意义,可加深我们对重大科学和社会挑战的理解,推动政府、公民以及企业间的合作,并引领一个新的电子政府服务的新时代。然而,我们也需要考虑与管理大数据相关的一系列政策问题,包括隐私、准确性、可获取性、公平和保存政策等,并建立整体性的大数据治理模式。

责任编辑:彭凡 来源: 36大数据
相关推荐

2013-01-23 09:59:50

2014-07-30 10:25:47

大数据华为

2021-08-05 11:13:47

大数据杀熟大数据分析大数据应用

2020-02-18 12:17:55

数据治理大数据平台

2017-07-13 09:48:17

2021-07-29 16:19:04

大数据旅游信息安全

2012-10-17 09:33:37

开源云平台OpenStackCloudStack

2017-09-19 14:54:14

人工智能克隆授权

2018-11-22 12:50:41

区块链比特币数字货币

2012-10-17 16:57:56

RackspaceIBM惠普

2010-06-22 11:58:30

2012-12-03 11:23:21

超级计算机弹性HPC

2015-12-21 10:08:53

数据中心IT安全威胁

2017-01-05 09:55:06

大数据环境城市

2016-08-12 00:04:44

大数据交通

2021-12-23 10:05:43

机器学习人工智能黑盒模型

2016-05-31 15:23:52

2021-09-30 16:28:34

大数据数据管理企业

2022-07-25 15:10:31

数据治理管理IT

2024-03-26 06:46:52

大数据数据治理大数据资产治理
点赞
收藏

51CTO技术栈公众号