近年来,大数据受到了工业界、科技界、媒体以及政府部门的高度关注,大数据本质上是一种基于数据处理的技术,通过大量数据分析提取有价值的信息,预测未来的变化,它被认为是推动商业和技术创新以及经济增长的新能源。大数据在各个领域有很多优势和潜力,但也存在很多问题和挑战,如隐私保护、伦理问题、数据安全管理方法、个人信息保护和数据滥用等[1],特别是包括隐私信息的大量共享数据在互联开放环境中被售卖和利用给人们带来了巨大的损失,大数据安全防护工作迫在眉睫。
本文将分为上下篇,为读者解读大数据全生命周期各阶段面临的风险和各种安全防护技术。在上篇中,主要介绍当前国际标准化组织制定的安全标准和大数据生命周期五个阶段(收集、存储、使用、利用和销毁)面临的风险,本篇为下篇,将为读者介绍针对各阶段风险处置技术。
1 数据收集
数据收集器可能在未经授权的情况下采集数据,侵犯数据提供商的主权,特别是隐私数据更需要采取安全管理措施,一般对隐私数据采取访问控制。另外还需要采取安全防护手段防止敏感数据泄漏,例如对某些数据字段进行加密,目前使用较广泛的是同态加密技术。
1.1 敏感数据访问控制
保护所有数据的代价较高,因此敏感数据保护是大数据安全管理的核心目标之一。敏感数据如财务数据、供应链数据、客户票据和验证票据等。自主访问控制系统在大数据安全方面具有理论的缺陷,例如,用户对某数据具有所有的控制权,破坏了“最小权限的原则“,从而给大数据系统带来了安全隐患。由于数据本身的价值不同,敏感程度不同,因此需要建立不同的敏感数据集合,根据《信息安全技术 网络安全等级保护基本要求》(GB/T 22239-2019),需要建立强制访问控制系统,对敏感数据进行管理。
在强制访问控制下,系统给主体和客体指派不同的安全属性,这些安全属性在系统安全策略没有改变之前是不可能被轻易改变的。系统通过检查主体和客体的安全属性匹配与否来决定是否允许访问继续进行。强制安全访问控制基于安全标签的读写策略使数据库管理系统能够跟踪数据的流动,可以避免和防止大多数对数据库有意或无意的侵害,因而,可以为木马程序问题提供一定程度的保护,在数据库管理系统中有很大的应用价值[2]。其典型代表是Bell-La Padula模型(简称 BLP模型)和 Biba 模型,也是目前应用最为广泛的模型,能够达到保护数据的机密性和完整性的目标。与自主访问控制不同,用户无权将任何数据资源,哪怕是属于用户自身的数据库资源的访问权限赋予其他的用户,如图1为BLP模型设计原理图。
图1 BLP模型设计原理
1.2 同态加密
同态加密是一种可以在不解密的情况下对密文执行各种操作的加密方法。它的操作结果与对原数据直接操作结果相同,使用这种加密方式,实现了保护数据提供者的敏感数据的同时,又可以保证数据的可用性,图2为同态加密在大数据中应用的经典案例模型。同态加密通常用于数据收集阶段而不是分析阶段,因为计算处理速度非常慢,在某些情况下无法准确解密。目前有很多研究正在进行中,预计在几年后的分析阶段也可用同态加密。Gao等人[3]提出了一种隐私保护方案,该方案使数据提供商能够通过OTP(One Time Programmable)技术和同态加密技术安全公开数据,并提出了一种较强安全性的增强隐私保护方案。Mittal等人[4]提出了一种解决云环境中用户隐私威胁的同时进行挖掘的方法,该方法在分布式环境中使用一个较弱的同态密码系统来保持k-均值聚类的准确性,通过安全性分析讨论了所提出的方法对某些攻击是安全的,缺点是这种方法很难在分布式云环境中应用。
图2 大数据系统中同态加密应用模型
除了敏感数据访问控制和同态加密技术,保护隐私数据还包括以下研究和方法。Balebako等人[5]提出了一个原型,允许用户在Android环境下基于TaintDroid识别隐私泄露,通过将过滤的检测隐私泄露信息发送给用户,用户来决定应用程序是否能共享数据。Liu等[6]提出了一种影子编码方案,实现分布式数据的隐私安全,这是一种在采集数据时通过阴影矩阵计算来保护数据隐私,并在数据出现故障时进行恢复的方法,但该方法只能在同步环境中使用,对各种隐私保护要求的收敛性还有限制。
2 数据存储
目前大数据系统的数据主要采取分布式云存储方式,一般通过隐私保护技术(例如加密和屏蔽)来维护数据的完整性和机密性。并且敏感数据只能给特定的授权用户使用,需要对敏感数据进行访问控制。
2.1 数据加密
加密是一种将可理解的数据(明文)转换为不可理解的形式(密文)的方法,确保只有经过授权的用户才能使用数据。图3是数据加密技术的处理过程,在技术上,通过数学算法将明文转换成密文的过程,只有拥有加密密钥的人才能将密文变成明文,数据加密仍然是确保数据机密性的最基本保护方式,很多研究是使用现有的加密方法来存储大数据。代表性的加密算法主要分为公钥密码(如ABE)和对称密码(如AES)等。
图3 数据加密存储技术
ABE是一种基于对象属性集和访问结构进行加密和解密的公开密钥加密方法。只有当密文的属性与用户属性集匹配时才能解密,ABE分为KP-ABE和CP-ABE。KP-ABE解密的条件(如策略)包含在用户密钥中,CP-ABE的解密条件包含在密文中,图4 是CP-ABE的加解密原理。Xu等人[7]提出了CP-ABE,指出了物联网云中现有的基于属性的加密的局限性,并解决了物联网云环境中出现的用户撤销后有效访问、临时解密密钥泄漏等问题。Li等人[8]提出了一种关键字搜索功能外包ABE算法,可以解决在云环境中使用ABE时查询处理效率低下等缺点,该方法为每个关键字创建一个加密门,云服务提供商能够在不知道关键字和纯文本的情况下进行搜索和部分解密,具有很高的可扩展性和效率。
图4 CP-ABE的加解密原理
AES又称为Rijndael算法,是美国NIST采用的一种基于区块加密的对称密码标准,这个标准可以替代原有的DES算法,已被多方进行安全可靠分析和全球范围内使用,从2001年发布到现在上升为对称密钥加密体系中最流行的算法之一。AES适用于敏感数据的硬件和软件加密,加密密钥长度可扩展为128位、192位和256位,由于其加解密速度快、稳定性好,至今被广泛应用于大数据存储和数据库加密当中。另外Azougaghe等人[9]提出了一种简单的云存储保护方法,通过AES加密存储在云中的数据,密钥使用EIGamal算法进行加密,并存储在服务器中。Hussien等人[10]提出云存储,通过AES、Hash算法和ECC保证云环境中的数据机密性和完整性。
2.2 访问控制
存储阶段的访问控制分为对数据的物理访问控制和逻辑访问控制。物理访问控制是阻止非授权用户接触存储所有物理介质,一般进行必要的安保措施解决物理访问控制。逻辑访问控制采取一定的访问策略,只有经过身份验证并具有访问存储数据权限的用户才能使用数据,传统的面向封闭环境中的访问控制是基于角色的访问控制(Role-Based Access Control, 即RBAC),随着业务数据集成共享,角色呈爆炸式增长,带来访问控制的配置复杂度也随之呈指数式提升,RBAC要随需求的变化不断进行控制策略的维护,工作量大且很难保证及时性,从而无法保证数据被安全访问,一种新型的基于属性的访问控制((Attribute-Based Access Control,即ABAC)技术可以弥补RBAC的不足,成为新一代的访问控制技术。如图5为ABAC访问控制模型原理图,根据用户属性实时计算是否具有数据访问权限。
图5 基于属性的访问控制ABAC模型
另外Ko等人[11]提出了一个超级执行模型,该模型在计算前对数据的敏感性进行分类,在公有云中计算不敏感数据,在私有云中计算敏感数据,从而保护数据的机密性。Ngo等人[12]提出了另外一种虚拟云环境中的通用生命周期管理模型,通过将基础设施作为服务提供者,构建支持一致信任建立、访问控制和上下文安全管理的安全基础设施。支持使用可扩展访问控制标记语言中的策略配置文件进行基于角色的策略管理,并且可以通过授权票据技术解决分布式云之间共享安全上下文的问题。
3 数据分析
数据分析师可以通过强大的挖掘算法识别敏感数据,使数据所有者容易受到隐私侵犯。因此应该保护数据挖掘过程和分析结果只允许授权人员参与,需采取特定的访问控制策略。数据分析过程中,隐私保护的效率与数据处理的效率成反比,在保护敏感数据的同时很难提高数据处理效率,因此出现了各种隐私数据挖掘保护技术来解决这一关键问题。
3.1 隐私数据挖掘保护
隐私数据挖掘保护中使用较为广泛的是PPDM方法,指在不侵犯数据所有者隐私的情况下,发现数据中隐含的知识或模式的技术。PPDM有两种类型:一种是对原始数据加噪声或随机化进行分析的方法,这种分析方法已被实际应用于各种统计数据,但存在一定的安全隐患。另一种采取限制数据分析师不能获得除输入和计算结果以外的信息的方法,但由于计算效率低不实用不被广泛采用。为了权衡计算的安全性和实用性,需要不断选择PPDM方法,PPDM包括统计披露限制、关联规则隐藏、同态加密、去身份识别和隐私模型等。
关联规则隐藏是一种防止在分析阶段创建敏感关联规则的算法。关联规则在各种挖掘算法中具有很高的可用性,通过关联规则识别单个敏感数据,删除和添加数据值等,对敏感数据进行最小修改。关联规则隐藏算法一般分为启发式算法、基于边界算法等[13,14]。
去身份识别技术是一种删除数据中的非必要特征或用其它属性信息替换它的方法,主要目的是确保包括隐私在内的数据可以与其他数据相结合,从而无法识别特定的个人信息。在大数据生命周期的各个阶段,如隐私的收集、存储、利用和共享,都应该进行去身份识别,它包含了各种方法和算法,例如假名化是指在没有附加信息的情况下,通过删除或替换部分隐私而使特定的个人无法被识别的过程、聚合是将敏感数据集的值转换为平均值或总值来防止敏感数据值被识别的一种去身份识别技术、数据约简是一种直接擦除敏感数据的方法等。
3.2 访问控制
数据分析阶段,分析师最有可能会侵犯数据提供商的敏感数据,必须确保数据分析是由经过认证并且数据授权的数据分析师执行,需要进行适当的访问控制策略,防止超出目的的分析,一般采取传统的身份认证技术(如账号密码、生物认证技术)。
4 数据使用
分析阶段将各个领域收集的数据连接起来,通过分析组合来产生更有价值的信息,数据使用阶段就是利用这些重要信息帮助企业和个人预测未来。价值密度较高的数据绝大部分属于敏感数据,如财务报表分析结果等,这些数据可能在未授权的情况下用于其他目的,决策者可能会与第三方共享敏感数据,以追求商业利益最大化,因此需要各种隐私数据发布保护技术和审计跟踪技术来解决这种风险。
4.1 隐私数据发布保护
隐私数据发布保护技术的最重要的是PPDP模型,它可以分发给用户数据的同时而不暴露数据主体的身份。PPDP将去身份识别和可视化技术融合使用,图6描述了隐私保护数据PPDP模型的概念和涉及的角色,相关研究可参考文献[15]。另外Dasgupta等人[16]提出了并行坐标下的隐私保护可视化模型,采用距离度量和位置保持聚类作为聚类算法,采用k-匿名和l-多样性算法来保护隐私,使得用户通过交互界面访问数据,并提供可视化工具,讨论了潜在的攻击和威胁场景。Dasgupta等人[17]通过识别电子健康数据可视化中使用的各种可视化方法中可能发生的隐私威胁和攻击,对相关问题进行概述,为隐私保护可视化奠定了基础。
图6 隐私保护数据发布(PPDP):(a)概念概述(b) PPDP场景中涉及角色的描述
4.2 审计跟踪
数据使用阶段将价值密度较高的信息向公众展示或用于其他目的时,可能会出现各种隐私问题,因此需要记录那些人员使用了数据,如何使用以及在哪里使用数据。当审计人员想知道使用者使用机器学习模型做出何种决策时,审计跟踪将作为溯源追踪的主要参考,一般在数据使用时会记录下操作者的用户标识、操作时间、内容、位置、对数据进行了何种操作等信息,根据机器学习模型对操作动机做出进一步预测判断,最后由专业人员给出审计结果。Ferdous等人[18]为分布式访问控制系统提出了一种基于区块链的分散运行时监控体系结构,可以根据所使用的策略评估访问控制是否已正确执行,并通过存储日志和基于区块链的监视来检测策略违反情况,这种方法有一个缺点,监控可能需要很长时间。
5 数据销毁
大数据系统中的某些数据一旦不再进行预期目的分析、长期内没有任何访问需求、超过生存时间戳以及存储冗余都会进行数据销毁。数据销毁主要包括数据硬销毁和数据重写两种方式。
数据硬销毁是借助外力,如焚烧和粉碎等破坏存储介质,一旦破坏将不能继续使用,造成了一定的浪费,所以基本上没有得到广泛的应用。数据重写又叫覆写销毁,是目前研究的主流数据销毁技术。数据重写技术主要是通过采用规定的无意义数据序列,利用特定的重写规则,覆盖磁性存储介质上的原始数据。由于磁存储介质具有磁残留特性,因此会导致磁头在进行写操作时,每一次写入磁场的强度都不一样,这种差别会在写入记录间产生覆写痕迹,这就使得有可能通过专业设备分析重构出数据副本。为解决这一类数据重写的缺陷,最有效的方法就是进行多次的覆盖写。美军的数据销毁标准DOD-5220.22M便是使用了多达7次的重写以达到销毁效果。根据不同安全级别的需求,可采取不同强度的重写算法。
6 小结
大数据为各行各业提供便捷和创新潜力的同时,也带来许多安全性和隐私性问题。上篇中,我们解读了国际标准组织制定的现行标准,并对相关研究进行分析,将大数据全生命周期划分为五个阶段(收集、存储、分析、使用和销毁),为读者解读了大数据生命周期各阶段出现风险与挑战。本篇为下篇,我们介绍了每个阶段风险处置技术,数据收集阶段的敏感数据访问控制和同态加密、数据存储阶段的访问控制和数据加密,数据分析阶段的隐私数据挖掘保护、数据使用阶段的隐私数据发布保护和审计跟踪等,为当下数据安全防护工作提供参考,在未来的工作中,我们将更加明确大数据生命周期各阶段的风险,并对安全技术进行分类,设计安全架构。
参考文献
[1] Koo, J., Kang, G., & Kim, Y. G. (2020). Security and Privacy in Big Data Life Cycle: A Survey and Open Challenges. Sustainability, 12(24), 10571.
[2] Zhao, Y.; Wang, Z.; Zou, L.; Wang, J.; Hao, Y. A Linked Data Based Personal Service Data Collection and Semantics Unification Method. In Proceedings of the 2014 International Conference on Service Sciences,Wuxi, China, 22–23 May 2014. [CrossRef]
[3] Gao, W.; Yu, W.; Liang, F.; Hatcher, W.G.; Lu, C. Privacy-preserving auction for big data trading using homomorphic encryption. IEEE Trans. Netw. Sci. Eng. 2020, 7, 776–791.[CrossRef]
[4] Mittal, D.; Kaur, D.; Aggarwal, A. Secure data mining in cloud using homomorphic encryption. In Proceedings of the 2014 IEEE International Conference on Cloud Computing in Emerging Markets (CCEM),Bangalore, India, 15–17 October 2014. [CrossRef]
[5] Balebako, R.; Jung, J.; Lu, W.; Cranor, L.F.; Nguyen, C. “Little brothers watching you”: Raising awareness of data leaks on smartphones. In Proceedings of the Ninth Symposium on Usable Privacy and Security ,Newcastle, UK, 24–26 July 2013. [CrossRef]
[6] Liu, S.; Qu, Q.; Chen, L.; Ni, L.M. SMC: A practical schema for privacy-preserved data sharing over distributed data streams.IEEE T rans. Big Data2015,1, 68–81. [CrossRef]
[7] Xu, S.; Yang, G.; Mu, Y.; Liu, X. A secure IoT cloud storage system with fine-grained access control and decryption key exposure resistance. Future Gener. Comput. Syst. 2019, 97, 284–294. [CrossRef]
[8]. Li, J.; Lin, X.; Zhang, Y.; Han, J. KSF-OABE: Outsourced attribute-based encryption with keyword search function for cloud storage. IEEE Trans. Serv. Comput. 2016, 10, 715–725. [CrossRef]
[9]Azougaghe, A.; Kartit, Z.; Hedabou, M.; Belkasmi, M.; El Marraki, M. An e_cient algorithm for data security in cloud storage. In Proceedings of the 2015 15th International Conference on Intelligent Systems Design and Applications (ISDA), Marrakech, Morocco, 14–16 December 2015. [CrossRef]
[10] Hussien, Z.A.; Jin, H.; Abduljabbar, Z.A.; Hussain, M.A.; Abbdal, S.H.; Zou, D. Scheme for ensuring data security on cloud data storage in a semi-trusted third party auditor. In Proceedings of the 2015 4th International Conference on Computer Science and Network Technology (ICCSNT), Harbin, China, 19–20 December 2015. [CrossRef]
[11] Ko, S.Y.; Jeon, K.; Morales, R. The HybrEx Model for Confidentiality and Privacy in Cloud Computing. HotCloud 2011, 11, 1–5. [CrossRef]
[12] Ngo, C.; Membrey, P.; Demchenko, Y.; de Laat, C. Policy and context management in dynamically provisioned access control service for virtualized cloud infrastructures. In Proceedings of the 2012 Seventh International. Conference on Availability, Reliability and Security, Prague, Czech Republic, 20–24 August 2012. [CrossRef]
[13] Verykios, V.S.; Elmagarmid, A.K.; Bertino, E.; Saygin, Y.; Dasseni, E. Association rule hiding. IEEE Trans. Knowl. Data Eng. 2004, 16, 434–447. [CrossRef]
[14] Verykios, V.S. Association rule hiding methods. Wiley Interdiscip. Rev. Data Min. Knowl. Discov. 2013, 3,28–36. [CrossRef]
[15] Majeed, A., & Lee, S. (2020). Anonymization techniques for privacy preserving data publishing: A comprehensive survey. IEEE Access.
[16] Dasgupta, A.; Kosara, R. Adaptive privacy-preserving visualization using parallel coordinates. IEEE Trans. Vis. Comput. Graph. 2011, 17, 2241–2248. [CrossRef] [PubMed]
[17] Dasgupta, A.; Maguire, E.; Abdul-Rahman, A.; Chen, M. Opportunities and challenges for privacy-preserving visualization of electronic health record data. In Proceedings of the IEEE VIS 2014Workshop on Visualization of Electronic Health Records, Paris, France, 9–14 November 2014. [CrossRef]
[18] Ferdous, M.S.; Margheri, A.; Paci, F.; Yang, M.; Sassone, V. Decentralised runtime monitoring for access control systems in cloud federations. In Proceedings of the 2017 IEEE 37th International Conference on Distributed Computing Systems (ICDCS), Atlanta, GA, USA, 5–8 June 2017. [CrossRef]