近年来,大数据受到了工业界、科技界、媒体以及政府部门的高度关注,大数据本质上是一种基于数据处理的技术,通过大量数据分析提取有价值的信息,预测未来的变化,它被认为是推动商业和技术创新以及经济增长的新能源。大数据在各个领域有很多优势和潜力,但也存在很多问题和挑战,如隐私保护、伦理问题、数据安全管理方法、个人信息保护和数据滥用等[1],特别是包括隐私信息的大量共享数据在互联开放环境中被售卖和利用给人们带来了巨大的损失,大数据安全防护工作迫在眉睫。
本文将分为上下篇,为读者解读大数据全生命周期各阶段面临的风险和各种安全防护技术。上篇主要介绍当前国际标准化组织制定的安全标准和大数据生命周期五个阶段(收集、存储、使用、利用和销毁)面临的风险,下篇主要介绍数据全生命周期各阶段风险应对安全技术。
1 . 背景介绍
1.1 大数据平台
大数据是新一代的技术,具有数据量大、产生速度快和数据种类繁多等多方面特点,这些数据以结构化和半结构化的多种形态呈现,当前分析和处理用户产生的海量数据已经成为政府和企业的主要任务。大数据各种组件也相继出现,如大数据框架Hadoop、CDH、HDP;集群管控Ambari、数据采集Flume;数据存储HBase;数据处理Flink、Spark和Storm;数据挖掘Mahout和Spark MLib等,图1列出了大数据技术生态体系图,这些组件相互组合使用来支持大规模数据的收集、分析和存储等任务。
图1 大数据技术生态体系
1.2 大数据安全
大数据由于价值密度较高,经常成为黑客攻击的目标,普遍存在巨大的安全需求。例如全球互联网巨头雅虎曾被黑客攻破用户账户保护算法,导致数亿的用户账号被盗、管理咨询公司埃森哲等研究机构2016年发布的一项研究调查结果显示,调查的208家企业当中,69%的企业曾在过去一年内“遭到公司内部人员窃取数据或试图盗取”。传统的数据安全需求主要包括数据的机密性、完整性和可用性等,其目的主要防止数据在传输、存储和使用等环节被泄漏和篡改。而在大数据场景下,不仅要满足传统的信息安全需求,还必须应对大数据特性所带来的各项技术挑战,主要有如下三个挑战,挑战之一是如何满足可用性的前提下保护大数据的机密性,挑战之二是如何实现大数据的安全共享,挑战之三是如何实现大数据的真实验证和可信溯源。
通常,大数据平台中有五种类型的角色(数据提供者、数据收集者、存储管理者、分析师和决策者),图2是大数据平台的一个简单应用场景。
图2 大数据的简单应用场景
数据采集器通过物联网设备、社交网络服务等多种途径收集数据。采集的数据可能包含敏感信息,因此必须采取适当的数据隐私处理安全措施。存储管理者通过云环境和分布式存储系统来存储数据,存储阶段可能包含来自数据提供者的敏感信息,应该使用各种安全技术来安全管理这些信息,防止数据泄漏,另外数据删除应按照法规执行,以确保数据提供者的权利。数据分析师可以分析存储库中的数据,以获得适当的分析结果,在挖掘和分析过程中可能会出现各种隐私数据挖掘问题,分析师要使用隐私保护技术来平衡数据的可用性和隐私性之间的关系。决策者以可视化等方式利用分析的结果,这些结果很多情况只能给特定用户展示,需要隐私保护技术防止无意的隐私泄漏。
2 . 数据安全标准
数据安全标准分为法律标准和事实标准。法律标准由现有的标准化组织经过一定程序和审议制定的标准,组织包括ISO、ITU、ISO/IEC 单位JTC1、NIST、SAC和BSI等。事实标准是由特定领域的公司和组织如建立的标准,因其知名度而影响着市场经济,其地位也在不断加强,制定了一系列大数据相关的事实标准,组织单位包括TTA、TM论坛、IEEE-SA和Apache等。
2.1 法律标准
国际标准化组织(ISO)是1947年成立的一个国际标准化组织,由各个国家标准组织的代表组成,旨在解决不同国家不同工业和商业标准可能产生的问题[2]。目前开发了很多与大数据安全相关的参考架构和框架,如ISO/IEC 20547 Information technology-Big data- reference architecture和ISO/IEC 24668 Information technology-Artificial intelligence-Process management framework for big data analytics等,但在信息和通信等技术进步迅速的领域,这些标准却往往无法跟上市场趋势。
国家标准化委员会成立于2001年,是负责管理、监督和协调我国整体标准化工作,促进国家在国际标准化领域的国家利益的全国性标准化机构,在大数据安全相关标准为《GB/T 35274-2017信息安全技术大数据业务安全能力要求》和《GB/T 37973-2019信息安全技术大数据安全管理指南》[3]。GB/T 35274-2017规定,大数据服务提供商应具备与基础安全能力相关的组织机构和与数据生命周期相关的数据安全能力。该标准根据数据生命周期(即获取、传输、存储、处理、交换和销毁)描述安全要求。《GB/T 37973-2019》还对大数据的安全要求和识别威胁、漏洞等安全风险进行了描述。但是对需求的描述只是一个粗略的描述,而详细的技术说明和必要性是不够的。
2.2 事实标准
电信技术协会(TTA)是韩国1988年成立的信息通信领域标准化和标准产品测试的机构,是韩国唯一指定信息通信组织标准的机构,其制定的大数据相关标准takk . ko -10.0900大数据部署和利用指南。
IEEE是在美国成立的电子电气工程及相关研究的协会,其IEEE-SA组织正在为各个行业开发大数据标准[4],通过“IEEE P7002Data隐私处理程序”、“IEEE P7006个人数据AI代理程序”等项目,正在制定大数据隐私保护标准。IEEE P7002定义了系统/软件工程过程的要求,涉及产品、服务和利用雇员、客户或其他外部用户的个人数据的系统。IEEE P7006描述了创建和授权使用个性化人工智能所需的技术元素,该人工智能将包含由个人控制的输入、学习、伦理、规则和价值观。
Apache是专门为开源软件项目提供支持的非盈利性组织,其中开源软件项目“基于大数据分析的分布式处理平台Hadoop”,通过与多个开源项目组合,生成了一个大数据生态系统,Hadoop分布式文件系统项目提供了认证和授权等安全性[5]。
2.3 现行标准的展望和缺陷
数据的安全和隐私是大数据需要解决的关键问题,但许多标准组织仍在发展或没有涉及,虽然一些标准化组织正在制定与大数据相关的标准,但标准的制定和发布需要花费大量的时间,技术的飞速发展使得已发布的标准仅将过时的技术列入其中,且没有对这些技术进行详细描述。因此,法律上和事实上的标准化组织需要共同发布适合市场的大数据安全和隐私标准。
3 . 安全与隐私挑战
如图3所示将大数据生命周期划分为数据收集、存储、分析、使用和销毁五个阶段,接下来将介绍每个阶段出现的数据安全问题和隐私风险。
图3 大数据全生命周期
3.1 数据收集
数据收集阶段,数据从不同的来源收集,具有不同的格式,如结构化、半结构化和非结构化。大数据平台应该将安全措施优先用于生命周期的收集阶段,平台最重要的是获取可靠的数据,才能确保后续大数据分析以及各阶段安全设计是有意义的,因此需要采取适当的措施来保障采集安全。
数据收集器可能会在未经任何同意的情况下不恰当地收集数据,从而侵犯提供商的数据主权,例如许多人在社交媒体和购物等日常活动中缺乏同意意识,无意间泄漏了自身隐私数据,也有可能通过各种攻击(如欺骗、钓鱼和垃圾邮件)来获取敏感数据,因此需要采取一些授权手段对数据采集进行访问控制。另外还需要采取额外的安全措施来防止数据泄漏,例如对某些数据字段进行加密,目前使用较广泛的是同态加密技术。
3.2 数据存储
在数据存储阶段,收集的数据被存储于大型的数据中心供下一阶段(即数据分析阶段)使用,由于采集的数据中可能包含敏感信息,因此在存储数据时采取有效的防范措施非常重要。存储阶段面临的风险是多方面的,不仅包括来自外界黑客的攻击、来自内部人员的信息窃取,还包括不同利益方对数据的超越权使用等。因此存储阶段需要通过物理安全和数据保护技术相结合的方式来应对多种威胁。在数据不完全可靠的情况下,例如在云环境中,通过隐私保护技术(例如加密和屏蔽)来维护数据的完整性和机密性。由于数据规模巨大,数据存储业务需要坚持分布式存储,敏感数据只能通过访问控制提供给授权人员,如果敏感数据在未经同意的情况下被无意传递,必须立即销毁。
3.3 数据分析
数据采集和存储后,对数据进行处理和挖掘分析,生成有用的知识。数据分析阶段使用了各种数据挖掘技术,如聚类、分类和关联规则挖掘,为处理和分析提供一个安全的环境非常重要。数据挖掘者可以通过强大的挖掘算法识别敏感数据,使数据所有者容易受到隐私侵犯。因此,应该保护数据挖掘过程和分析结果不受基于挖掘的攻击,只允许授权人员参与。另外在分析数据的过程中,隐私保护的效率与数据处理的效率成反比,即在保护敏感数据的同时很难提高处理效率,因此各种保护隐私挖掘技术和去身份识别技术正在开发中解决这一关键问题。
3.4 数据使用
数据使用阶段是利用分析阶段产生的重要信息,通过对敏感信息的分析组合创建新信息,将从各个领域收集的数据连接起来,帮助企业和个人识别推断一些未来判断,绝大部分属于敏感信息,这些信息可以在未经同意的情况下用于其他目的。此外,决策者可能会与第三方共享敏感数据,以追求商业利益,因此需要审计跟踪技术和隐私数据发布保护技术来解决这种风险。
3.5 数据销毁
数据一旦不再进行预期目的分析或数据拥有者拒绝使用权,则必须销毁数据。数据销毁主要包括物理破坏硬盘或破坏存储内容来破坏数据。破坏硬盘是借助外力直接粉碎存储介质,一旦破坏将不能继续使用。破坏数据本身如多次覆盖写,这些方法涉及到存储数据的整个物理/逻辑空间的处理,很难只删除部分数据,也很难核实处置的有效性。一些组织在达到预期目的且用户撤回数据使用权的情况下仍然使用这些数据,而且一些人员将数据售卖给第三方公司换取利益,严重侵害了用户的隐私。由于大数据本身特性,在分布式环境下,数据一般会使用覆盖写等技术破坏而不采用破坏硬盘的方式,国防机密才会采取销毁硬盘的方式销毁数据。
4 . 小 结
在本篇文章中,我们解读了国际标准组织制定的现行标准,对相关研究分析发现目前的数据安全研究主要集中存储和分析阶段,数据收集和销毁的研究较少,但大数据生命周期的各个阶段都是相互关联的,解决大数据的安全隐私问题,并不只是存储和分析阶段,希望对每个阶段的安全加强都要重视起来,全方位解决数据安全问题。本文将大数据生命周期划分为五个阶段(收集、存储、分析、使用和销毁),为读者解读了大数据生命周期各阶段出现风险与挑战。在下篇中,我们将介绍应对这些风险与挑战的安全技术。
参考文献
[1] Koo, J., Kang, G., & Kim, Y. G. (2020). Security and Privacy in Big Data Life Cycle: A Survey and Open Challenges. Sustainability, 12(24), 10571.
[2] ISO—International Organization for Standardization. Available online:
https://www.iso.org/about-us.html(accessed on 27 October 2020).
[3] SAC—Standardization Administration of China—ISO. Available online:
https://www.iso.org/member/1635.html (accessed on 27 October 2020).
[4] IEEE SA—The IEEE Standards Association—Home. Available online: https://standards.ieee.org/ (accessed on27 October 2020).
[5] Apache Hadoop. Available online: https://hadoop.apache.org/ (accessed on 27 October 2020).