数据作为一种现代信息社会不可或缺的新兴资源,从产生伊始就面临着被各方篡改的风险。遭到篡改的数据在可用性与真实性方面都会大打折扣。而区块链因其不可篡改、去中心化、防止单点故障的特性天然契合数据完整性保护的要求。本文从单点故障入手,主要讲述区块链在保护数据完整性的一些方法以及展望。
1问题简介
随着大数据时代的到来,数据本身逐渐成为基础性的国家战略资源和社会生产要素,也因其蕴藏的价值成为各种网络攻击的核心目标。数据在其流转传输甚至整个生命周期中因数据处理环节和所涉参与方的多样性和复杂性,其完整性易受到来自各方篡改的威胁。
在信息系统中,单点故障(single point of failure,SPOF)是指在整个系统中,如果某个信息点发生数据篡改或者数据丢失从而导致该点发生故障,将会使整个系统停止工作。区块链技术的诞生给信息系统单点故障提供了一种新思路。其链上数据采用分布式副本存储,每一个参与区块链的节点都保存有一份数据副本,因此可有效避免集中化存储的单点故障问题1;且区块链自身的链式哈希指针结构可确保其上数据无法被任意删改,是对数据完整性的有效保证。区块链结构如下图一所示:
图1 区块链结构
2区块链技术简介
区块链技术自 2009 年第一个举世闻名的数字货币比特币诞生以来迅速步入工业界和学术界的视野,近几年更是出现了大批与区块链技术结合的去中心化应用。区块链技术的发展大致分为以下3个阶段:
1) 区块链 1. 0:数字货币的诞生。标志性事件是比特币问世,其最初的应用范围聚焦于货币领域。
2) 区块链2. 0:标志性事件是以太坊以及运行在其上的智能合约的问世。智能合约可以自动化地执行、验证合同,全程不需要第三方仲裁机构的参与,是解决互不信任的安全多方计算的有效手段。区块链由此从货币领域扩大到整个金融领域。
3) 区块链 3. 0:区块链与各行各业甚至城市基础设施的结合,形成各种各样的去中心化应用,最终目标是形成可编程、去中心化社会。
区块链的本质是一个拜占庭环境下交易驱动的副本状态机2,宏观上表现为一种去掉了删除和更新操作的分布式数据库。常见区块链的数据结构如下所示:
图2 区块链成员信息
3现有方法总结
在实施任何区块链技术之前,许多组织已经着手将其工作负载分布在多个环境和网络中,以提高弹性并最大程度地保证数据完整性并减少单点故障。尽管这些努力在很大程度上开始获得回报,但仍然存在有关可用度量的效率的问题,这些度量可用于提供一定程度的信心,以确保端到端工作流程正在正确执行。简而言之,如果所使用的一个或多个网络资源出现故障,如何实时或近实时地捕获,分析,传达和缓解故障?更重要的是,信息泄露程度是多少?最终,由于必须根据分布式网络体系结构的实现来衡量集中式IT系统体系结构设计的收益和成本,因此区块链技术在该领域既带来挑战,也带来机遇。
区块链应用于数据完整性保护而后解决信息单点故障问题的方法按其类型可分为基于公有链的、基于联盟链的、基于私有链的三大类型,其中每个类型按应用场景和数据特性又分为溯源与确权数据保护、日志数据保护、物联网数据保护等,下面分别讨论各场景下将区块链技术应用于数据保护各个方案相较传统数据保护方法的优势以及自身的一些不足之处。
在溯源数据保护以及溯源链建立方面,当前数据溯源的主要传统方法有数据引证技术3、标注法4、反向查询法5等。然而这些传统方法对溯源数据本身的保护不足,往往需要依赖中心化的第三方存储或验证溯源数据。如何安全可靠地存储溯源数据成为溯源领域的难点。
区块链在溯源和确权中应用的核心思想是将溯源数据上链保存达到溯源数据不可篡改的目的。但区块链只能保证链上数据的完整性,不能保证溯源数据来源的可靠性与数据本身的真实性,需要在链下结合其他数据真实性审计与校验手段。
在日志数据保护方面,区块链应用于日志数据完整性保护可以确保日志数据不被篡改,提升日志可靠性,加强系统的安全性。但由于链上存储空间开销大,因而大多数区块链日志应用仅存储日志数据的摘要或哈希而不是完整数据。虽然能检测篡改,但那些数据损坏的节点想要恢复日志数据仍然要依靠链下手段,并且智能合约应用不足,应深度研究结合智能合约的日志自动化验证方法。
在物联网数据保护方面,应根据要保护的数据所在的物联网设备特性对所用区块链进行定制化设计。比如物联网设备的普遍特点是设备小而多,单个设备并不具备很强的算力,这就不太适合采用工作量证明这种算力要求高的共识算法。而且设备数据存储能力也有限,需结合链下专门的存储设备存储数据。近年来新型分布式账本 (IOTA) 是物联网区块链应用数据保护的一个可选项,其目标就是应用于物联网设备并建立机器经济,使交易无需手续费且数据上链速度高。
在区块链技术用于其他非 IT 行业数据保护方面的应用处于初步探索与试点应用阶段,共性思路是将需要保护的数据存储到区块链上以达到数据保护的目的。
近几年来区块链技术越来越多与各行业结合,出现了去中心化应用(Decentralized Applications,DAPP)、去中心化组织(Decentralized Autonomous Organizations,DAO)、去中心化公司(Decentralized Autonomous Companies,DAC)甚至去中心化社会(Decentralized Autonomous Society,DAS)的概念,但与各行业结合前应该探索本行业哪些数据适合去中心化上链存储,因为链上存储空间开销大,所以那些需要频繁更新且规模庞大的数据就不太适合存储在区块链中。区块链更适合存储凭证、证书以及摘要或哈希等无需经常改动的数据。另外,那些必须受到第三方监督的领域应该采用联盟链或私有链这种中心化程度较高的区块链类型以满足监管要求,而不是完全去中心化的公有链。
4总结与展望
本文首先对区块链和数据完整性保护的相关概念进行了阐述,然后对于相关保护方法简要介绍。区块链因其自身去中心化、区块中数据不可篡改的特性,在数据保护领域中有着天然的优势,是未来分布式环境下数据保护的一大可行方向。区块链技术在数据完整性保护领域的完整性验证效率、数据恢复能力、数据历史版本回溯能力以及防止单点故障和抗删改方面都有较好的表现;但现有数据完整性保护应用较少且处于初创阶段,亟待学者们研究。
参考文献
[1] NAKAMOTO S. Bitcoin:a peer-to-peer electronic cash system[EB/OL].[2020-03-24]. https://bitcoin. org/bitcoin. pdf.
[2] EYAL I,GENCER A E,SIRER E G,et al. Bitcoin-NG:ascalable blockchain protocol[C]// Proceedings of the 13th USENIX Symposium on Networked Systems Design and Implementation. Berkeley:USENIX Association,2016:45-59.
[3] XIE Y,FENG D,TAN Z,et al. Design and evaluation of aprovenance-based rebuild framework[J]. IEEE Transactions on Magnetics,2013,49(6):2805-2811.
[4] WIDOM J. Trio:a system for integrated management of data accuracy and lineage[C]// Proceedings of the 2005 International Conference on Innovation Data Systems Research. Piscataway:IEEE,2005:262-276.
[5] IKEDA R,WIDOM J. Panda:a system for provenance and data [C]// Proceedings for the 2nd Conference on Theory and Practice of Provenance. Berkeley:USENIX Association,2010:1-4.