随着互联网和信息技术的不断发展,人类已经进入大数据时代。数据已成为一个国家基础型的战略资源。在信息化浪潮的不断推动下,政府部门多年来积累了越来越多的与民生、经济息息相关的数据,如医疗、交通、社保等,一般称为“政府大数据”。与互联网上产生的大数据低价值密度不同,政府大数据具有高价值密度的特点。如何更好地开放、共享,并利用和挖掘政府大数据的价值,是当今研究的热点问题。
在这样的背景下,对于掌握了大量数据的政府部门,无异于掌握了大量的资源或资产。然而政府大数据的价值是潜在的,只有结合一定的应用需求和应用场景,由合适的对象用适当的方法加以开发和利用,才能发挥出来,否则就只能是一笔“沉睡”的资产。因此,政府部门如何盘活和管理这笔数据资产就显得尤为重要,政府大数据治理就是要解决这一问题。
政府大数据治理的关键
政府大数据治理的目标是发挥出政府大数据的潜在价值。即实现多个部门数据的共享、开放和市场化利用。简单来讲就是,政府大数据治理的结果能更好地保证有需求的对象在需要的时间获得合适的数据并在正确的场景下合理地使用。有需求的对象,是指具备创新能力和技术实力的部门、初创企业甚至个人;在需要的时间,是指有应用需求而数据恰好也能发挥作用的时候,例如具备一定时效性的数据;而所谓合适的数据,理论上可以是政府部门掌握的任何数据;正确的场景,是指对数据的开发应用应利国利民惠经济;合理地使用,是不能违反相关法律法规。
以上是在理想的情况下发生的,实际情况却是,政府部门常常面临三个方面的难题。一是安全担忧,担心部门的数据隐含了国家机密造成泄露,导致不敢共享和开放;二是数据本身是部门的命脉,数据被拿走意味着核心业务将丢失,而不愿共享和开放;三是数据涉及市民隐私,没有好的技术手段和能力,不知如何共享和开放。这三个方面的问题都限制了政府大数据的开发和利用。
如果把政府大数据作为一个对象,要让数据真正“活”起来,从一大堆杂乱无章的原始数据,变成面向市民或用户的产品及服务,本质上来讲,就是加强了数据的流通,以及增多了对数据的各种操作。这些操作包括,访问、下载、修改、更新、复制及转移、融合、清洗、分析、可视化等等。为了保证政府多个部门、多个系统,来源广泛、种类繁多的数据能够更好地从采集、收集到变成产品或服务,需要政府部门建立一个有效的数据治理机制,治理机制涉及的问题包括,有多少个环节?谁来参与?由谁授权数据的这些操作?谁可以被允许对数据进行这些操作?谁对操作的结果负责?谁来监督?等等。这些问题贯穿整个政府大数据的全生命周期。
因此,政府大数据治理机制的建立,一方面,需要出台相应的政策和行政管理手段予以配合;另一方面,政府大数据的开发利用亟需一种足够安全、可靠的技术来保障数据资源、资产的共享、开放、流通和保护。
区块链技术应用于政府大数据治理
区块链是一种去中心化的分布式账本技术,整个账本由数据区块链接形成,由所有参与者共同维护,每个参与者都存有一份拷贝,单个参与者对数据的修改不起作用。非对称加密技术确保了数据不可篡改。围绕某项资产,每一笔交易或者操作生成一个新区块,所有的参与者或见证人由约定的规则达成共识,进行添加上链,从而来记录和追溯整个过程。由以上特点不难看出,区块链技术适合应用于去中心化的、多方参与、共同维护以增强信任的应用场景。
政府大数据治理是一个需要多方参与的过程。涉及数据的产生者、采集者、管理者、使用者等等。政府大数据的开发利用恰是一个多元主体、多方参与、权限不一、环节众多的应用场景。区块链的技术特点可以在诸多方面发挥作用,应用到政府大数据的治理中来。如图1所示。
首先,区块链具有可追溯性和不可篡改性,数据块一旦生成就表示得到过所有参与者的认同,无法篡改,且带有时间戳。这个好处应用到政府大数据治理当中可以帮助数据确权(包括原始来源、管理权、访问权、使用权等),促进数据流通,准确记录数据的产生、交换、转移、更新、开发利用整个过程。把数据作为核心命脉,担心数据因为共享或开放出去之后核心业务就丢失的部门可以因此而消除顾虑。
其次,在区块链上,数据包的哈希值是唯一的,能验证数据包的真实性。哈希加密算法对数据可能涉密或隐私部分进行加密,能在流通环节将数据进行一定程度的脱敏。同时,在涉及数据各方之间采用非对称加密技术,可以更好地划分角色,更加精细化对数据的操作权限,保障数据隐私安全。从而降低政府部门对数据的安全隐私担忧。
再次,应用区块链技术,每个区块的生成都得到了所有参与者的共识,在区块链上,数据交换记录是所有参与者认可的、透明的、可追溯的,数据的来源和流通路径是可以被记录和追溯,对数据的每一次更新和修改都“有迹可循”,同时,采用哈希算法可以对数据的完整性进行验证,从而保障和提升了数据在流通中的质量。
最后,应用基于区块链的智能合约技术,可以自动管理和执行政府部门之间约定好的数据共享开放利用规则,在实际操作过程中减少人为的干预,营造可信任的数据共享开放环境。
技术实现与应用局限性探讨
区块链技术应用于政府大数据治理,可以将数据所有权、数据传播过程、交易链条等相关信息完整全面地记录在分布的数据块中,并在所有参与方之间达成共识,共同维护。本节我们举例探讨在实际操作层面,区块链应用于政府大数据治理在技术实现上有哪些需要考虑的问题,以及可能存在哪些局限。区块链技术应用于政府大数据治理,从实操层面,有以下几个环节是必不可少的。
1.建链。区块链根据开放程度不同,可分为公有链、联盟链和私有链。公有链对所有人开放,任何人都可以参与;联盟链对特定的一些组织开放,私有链只对某个组织或个人开放。根据政府大数据的开放程度不同,可以采用不同的区块链。例如,对于国家级或省市级建的基础大数据中心,可以采用公有链,全民所有,全民共享;对于地方政府部门之间共享数据,可以采用联盟链;而针对某个部门某种数据的管理,可以采用私有链。基本规则:每一类数据建一条链。数据区块记录数据来源、所有权,数据操作方,当前的时间戳,对数据的操作类型,当前版本号,上一区块的哈希值等等。对数据的任何操作(更新、复制、下载等)→触发生成一个区块→接入区块链。对数据进行全生命周期记录。
2.共识机制的设计。共识机制的基本要求是多方参与、各司其责、各得其所,从而能够对数据的全生命周期进行管理和监督。一个好的共识机制还需要带有激励机制,以激励各方积极参与到管理数据的活动中来。例如,谁获得了记录权,谁就赢得积分,请求使用数据则消耗积分。同样,作为数据提供方,分享出的数据如被请求和使用了,可获得积分奖励。至于谁可以加入链,公有链不存在这个问题,私有链由中心节点批准,对于联盟链,可以集体批准接入,或者达到一定比例者同意即可;所有加入的链都可以自由退出。
3.基于智能合约的权限管理和交易规则。基于智能合约,数据权限管理和交易规则可通过链上编码实现,在交易过程中自动执行,不需要人为干涉,实时在线地保证数据操作的合法、合理、合规性。例如:在多个部门共享数据模型中,每个部门都通过共享出自己的数据(数据类型、数据量、更新频率等)获得积分(具体积分机制需要商定),我们可以简单地定义为,积分更高就能有更高的权限请求和使用其他部门的数据,权限值达到了,请求操作的数据区块便可自动生成,协议生效,不需要人工干预,从而提升了效率。如图2所示。
应用局限性探讨。由于政府部门较多,信息化程度不一,导致数据类型多样、标准各异,因此,需要创建的区块链也必然数量繁多、多种多样,从而针对区块链本身的治理也将会是问题。同时,由于区块链上的数据所有参与方都要存一份拷贝,而某些类型的政府数据量太大,没有办法完全生成区块上链,例如视频监控数据。这种情况下,从传输效率和节省存储空间消耗的角度出发,区块链技术只应用到治理机制层面,对政府大数据的治理起到一定的辅助作用。我们可以把这种模式称为“基于区块链的轻治理机制”。而把所有数据都放到区块链上的模式称为“基于区块链的强治理机制”。
在当今大数据时代,政府大数据是一笔宝贵的资产,政府大数据治理的目的就是要盘活这笔资产,挖掘和利用数据的潜在价值,取得社会化利用。政府大数据治理是一项涉及政策、管理、技术,甚至法律、制度的系统工程。政府部门在推动数据共享、开放、市场化利用的过程中面临不敢共享开放、不愿共享开放、不知如何共享开放等诸多难题。破解这些难题需要一种足够安全、可靠、灵活的技术来支撑。
区块链是一种去中心化、分布式的账本技术,具有去信任、不可篡改、可追溯等优点,非常适合应用于多元主体参与、多个流程和环节的治理过程,能够在政府大数据治理过程中重塑机制、改造流程、增强信任、提高效率等。本文探讨了区块链技术应用于政府大数据治理的多个方面的优势,以及初探了技术实现上的可能性和局限性。
(本文刊登于《中国信息安全》杂志2017年第12期)
中国科学院计算技术研究所 范灵俊 洪学海