背景
近些年,大数据技术在科学和工业领域的应用引起了业界的广泛关注,大数据促进社会进步的同时,也带来很多的问题和挑战,尤其是大数据治理和隐私保护问题。区块链技术具备去中心化、不可篡改、透明化等特征,在改善大数据安全服务方面具有巨大的潜力。在本文中,我们首先为读者介绍区块链大数据技术概念、特性以及二者结合的动机,接着介绍区块链大数据在工业界的应用,最后对一些代表性的项目进行分析。
区块链大数据概述
区块链
随着比特币为代表的新型数字货币的快速发展,作为比特币底层支撑的区块链技术引起了人们的关注,区块链概念首次提出是在比特币白皮书中[2]。区块链本质上是一个共享数据库,与传统的中心化数据库相比,区块链通过采取分布式数据存储、P2P传输、共识机制、加密算法和智能合约等传统技术,使得区块链具有去中心化、不可篡改、可溯源、多方维护、公开透明等特点[3]。基于这些特点,区块链奠定了坚实的“信任”基础,创造了可靠的“合作”机制,具有广阔的运用前景。
大数据
大数据技术起源于2000年前后互联网的高速发展时期。伴随着时代背景下的数据特征的不断演变以及数据价值释放需求的不断增加,大数据已逐步演进成针对大数据的多重数据特征,围绕数据采集、存储、处理计算,同时配套的数据治理、数据分析、数据安全等助力数据价值释放的周边技术组合形成的整套技术生态。如今大数据技术已经发展成覆盖面庞大的技术体系。图1展示了大数据技术体系图谱及相关代表性的大数据开源软件。
图1 大数据技术体系及主要开源框架
大数据时代,客户更倾向于在线交易,每天将产生大量的交易信息,累计的数据呈指数增长,为行业了解客户的需求、购买模式和客户趋势创造了新的机会。大数据具有体量大、时效性高、数据源异构多样和价值高等特点。通过大数据技术分析各类数据信息,将产生巨大的价值,指导国家和企业决策。大数据技术便利人类生活的同时,也带来了很多的问题与挑战,如数据隐私安全问题,脏数据处理、数据源可靠性验证、数据共享等。
区块链、大数据结合动机
大数据技术在解决当下许多问题方面具有巨大的潜力,目前政府、国私企正大力投资建设部门的大数据中心,以此来提高对外的服务质量。区块链技术具备的很多独特性质,可以用于解决以上大数据面临的这些挑战。
区块链和大数据技术结合动机的详细描述如下:
保障数据的安全:区块链以其不可篡改,可信任何公开透明性,让更多的数据安全流动起来。典型案例是区块链如何推动大数据基因测序,区块链大数据测序利用私钥限制访问权限,降低了利用法律限制个人获取基因数据的局限性,并且利用分布式计算资源,高效完成测序任务,区块链的安全性解决了基因测序的工业化问题,推动了数据的安全流动。
保障数据隐私的安全:政府掌握了大量的高密度、高价值数据,如人口数据、金融数据、医疗数据等,正确使用政府数据将对整个经济社会发展产生不可估量的推动力,开放数据是大势所趋。然而,数据开放主要的问题是如何保护个人隐私。基于区块链的数据脱敏技术能保证数据隐私性,为隐私保护下的数据开放提供了解决方案。数据脱敏技术主要采用哈希处理等加密算法,例如、基于区块链技术的Enigma系统,在不访问原始数据的情况下进行运算,可以对数据的私密性进行保护,杜绝数据共享中的隐私安全。
保障数据存储的安全:区块链网络中所有节点参与计算,相互验证其信息的真伪以达成全网共识。区块链的数据是不可篡改的、记录历史的,修改区块链网络中的数据至少需要修改50%节点的数据,区块链的不变性确保了存储在区块链网络中的数据是可靠的,使得数据库的发展进入新时代。
保障数据完整性:数据的访问者可能会篡改大数据中的记录,从而影响大数据分析预测的结果,区块链技术通过采取多签名私钥、加密技术和安全多方计算技术来保障数据不完整性。数据首先通过哈希计算,放置在区块链上,再使用数字签名技术,一方面使得数据仅对授权用户开放,使用者通过签名验证数据的完整性。
区块链大数据应用
如图2所示,通过调查大数据环境下区块链技术的应用,包括大数据的采集、存储、分析和隐私保护等,区块链通过共识算法确保数据的完整性。接下来重点分析了区块链大数据服务中的两个子领域应用,区块链大数据收集架构:移动感知(Mobile crowdsensing,MCS)区块链,区块链大数据传输/共享架构:边缘网络区块链。
图2 大数据环境下区块链的应用概览
MCS区块链
数据采集是数据处理生命周期中一项非常重要的任务,目前数据源和通信链路面临各种恶意攻击和威胁。因此安全的数据收集方法对于各种数据至关重要,目前全球已完成了几项数据收集安全的研究工作。例如,基于区块链的安全大数据收集方案被应用到移动感知(Mobile crowdsensing,MCS)项目。随着移动终端(mobile terminals,MT)和传感器等便携式智能移动终端设备的快速增长,MCS已经有效地应用到工业物联网当中,MCS服务器发布一些与传感器相关的数据集,并选择特定区域的MT来完成特定任务。任务的主要挑战是MT中传感设备的发送数据范围以及MT之间数据的安全共享。Liu[4]等提出了一个基于区块链和强化学习(DRL)的框架来克服这些挑战,每个MT基于分布式区块链的DRL方法为传感设备提供了多点发送功能以及最大传输范围。以太坊区块链平台用于保障数据的可靠性和安全性,MT进行共享数据。以太坊会维护一个安全账本,并在没有受信任的第三方情况下与合作的MT共享数据,该框架还集成了预防多种攻击和处理常见的设备故障的功能。
边缘网络区块链
区块链具有去中心化和不可篡改的特性,能提供大数据的安全传输,支持可靠数据共享。传输安全关键在于如何解决传统传输协议中存在的不足,如何防止数据被盗、数据丢失。目前国内外,有一些研究致力于使用区块链来支持大数据的传输和共享,随着边缘网络中数据量越来越大,边缘网络中敏感数据的安全共享是一项具有挑战的任务,Xu[5]等通过共识算法提高边缘网络认证计算的效率。此外,为了减少响应时间和存储开销,作者引入了一种基于区块链的无效事务过滤算法,使得访问者可以通过缓存层来访问数据。最后作者提出了快速交易和空心快,以提高模型的网络传输效率。应用层如图3所示,将采集到的数据报告、数据库、社交媒体或辅助小工具数据添加到带有签名和哈希值的区块链中,采取一致共识算法和无效事务过滤算法进行处理,然后与数据分析服务共享区块数据。实时分析模块进行数据可视化、模式预测,相互协作保障计算结果的真实可靠。
图3 区块链大数据安全传输/共享架构
小结
区块链被称为一种颠覆性的技术、数字化的分布式账本、本质上又是一种共享数据库,公开透明的按照顺序的记录比特币等加密货币的交易,具有很多优势。大数据是互联网时代的产物,区块链与大数据技术的结合成为当下的热点,在本文中,主要介绍了区块链和大数据的概念以及优点,通过现有的相关调查,了解现有研究在区块链和大数据方面的贡献以及二者结合的动机,讨论了目前区块链大数据在工业界的一些应用,最后对本文进行总结。
参考文献
[1] Deepa, N., Pham, Q. V., Nguyen, D. C.,Bhattacharya, S., Prabadevi, B., Gadekallu, T. R., ... & Pathirana, P. N.(2022). A survey on blockchain for big data: approaches, opportunities, andfuture directions. Future Generation Computer Systems.
[2] Nakamoto, S. (2008). Bitcoin: Apeer-to-peer electronic cash system. Decentralized Business Review, 21260.
[3] 沈鑫, 裴庆祺, & 刘雪峰. (2016). 区块链技术综述. 网络与信息安全学报, 2(11), 11-20.
[4] Liu, C. H., Lin, Q., & Wen, S.(2018). Blockchain-enabled data collection and sharing for industrial IoT withdeep reinforcement learning. IEEE Transactions on Industrial Informatics,15(6), 3516-3526.
[5] Xu, C., Wang, K., Li, P., Guo, S., Luo,J., Ye, B., & Guo, M. (2018). Making big data open in edges: Aresource-efficient blockchain-based approach. IEEE Transactions on Parallel andDistributed Systems, 30(4), 870-882.