云端大数据安全:悟透关键挑战

云计算
我们将摘录研究报告中对云计算环境下十大数据安全性挑战的调查结果,并提出一些企业应当做些什么的忠告,以确保他们大数据项目实施的安全性。

最近的一次会议中,我听到一位演讲者提到通过硬件安全模块提供的基于云的密钥管理,或者HSM。HSM是什么?基于所有其他使用的云安全选择,我如何知道自己是否需要?

简短的回答就是如果你还没听到很多关于HSM的内容,你可能就不需要用这种方法来进行信息安全管理,至少目前还不需要。你可以找到足够多的其他的更容易且更便宜的方法来确保你的数据的安全。

HSM是一种专用硬件系统,旨在存储和管理私有和公有密钥,比如确保套接层安全,或者SSL、证书。最著名的HSM产品是亚马逊Web服务的CloudHSM,在AWS云内部运作。AWS将CloudHSM描述服务一种服务,可以允许客户安全生成、存储和管理加密密钥,从而实现数据加密,某种程度上,这个密钥只是用户可访问。

如果你需要运行数字版权管理或者公有密钥基础架构的话,这种系统很有用。这种系统用于需要高水平安全的产品,有其是确保法规遵从。

但是针对大多数典型项目,你需要的安全远不止这些。除非你在你处理分类治理数据、机密医药信息a

从概念上讲,大数据并不是一个新的东西;几十年以来,很多企业已收集和使用了大量的数据。近年来大数据的理念已真正成形,而其中很大一部分的原因是目前各种规模的企业都是通过云计算访问基础设施的,而云计算赋予了大数据发展的良好机遇。虽然新的机遇已成为了企业的巨大商机,但是很多企业仍然还在思考大数据应用中所蕴含的安全性问题。

今年6月,云计算安全联盟(CSA)的大数据工作组发布了一个名为“大数据安全性与隐私的十大挑战”研究报告,其中详细介绍了云计算服务环境中大型化、多样化和低结构化数据集合(统称为大数据)所需面临的各种类型安全性问题和隐私问题。在如今喧嚣尘上的大数据炒作下,企业消费者能够从这份报告中对大数据安全性问题得到些什么启示呢?

在本文中,我们将摘录研究报告中对云计算环境下十大数据安全性挑战的调查结果,并提出一些企业应当做些什么的忠告,以确保他们大数据项目实施的安全性。

安全性风险建模

在深入探讨与云计算环境下大数据应用相关的各个风险之前,CSA大数据工作组最直接有效的努力之一就是为风险构建了一个简单的架构模型。这个模型描述了数据是如何被处理和存储的,其中包括了大数据的来源、处理集群以及数据的端点消费者(系统、移动设备等),以及处理和存储操作发生的云计算环境。此外,这个模型显示了数据通过这个生态系统的一个简单的定向数据流,这毫无疑问有助于企业用户了解在云计算背景下大数据对于他们真正意义的所在。

CSA工作组还把风险分为了四类:基础设施安全性(安全计算和非关系型数据存储);数据隐私性(加密、访问控制、数据分析与数据挖掘的隐私性);数据管理(审计与数据存储的安全性,和元数据出处[数据源验证和确实性]);以及完整性和被动安全性(端点验证和实时安全性监控)。

通过使用这些分类方法,企业可以在他们现有的安全性控制架构中确定主要风险的所在。

大数据应用的安全性挑战

为了形成这份调查报告,CSA工作组对CSA的成员进行了访谈、对公开出版物和商业期刊进行了分析,其研究结果就是与大数据相关的十大安全性和隐私性风险。

就具体研究结果来看,以下详细列出了大多数企业关注他们努力方向的关键思考:即在分布式编程框架下确保计算的安全性。第一个发现的风险涉及诸如MapReduce框架下计算元素的安全性,以及两个具体的安全性问题。首先,是“映射器”的诚信问题,即代码把数据分成片段进行分析,并输出需要进行评估的键值对。其次,是执行数据清理和分离识别操作以防止平台发生敏感数据泄漏事件的能力。使用诸如MapReduce这样复杂工具的企业将需要使用SELinux中的强制性访问控制工具和分离识别程序;与之相同,企业应当要求云计算供应商提供在他们的环境中是如何控制和弥补这个问题的。

非关系型数据存储的安全最佳实践。使用NoSQL和其他大型非关系型数据存储可能会由于在一些关键领域的能力缺乏而产生新的安全问题,其中包括了任何的身份真实性验证、数据在存储或传输状态下的加密、日志记录或数据标记,以及分类。企业需要考虑使用应用程序隔离或中间件层以加强身份验证和数据完整性。所有的密码都必须经过加密处理,所有至系统的连接都应当使用安全套接层/传输层等安全措施。同时,还应确保生成的日志记录涵盖了所有与敏感数据相关的交易。

确保数据存储和交易日志的安全性。数据和交易日志可存储在多层存储介质中,但是企业需要预防未经授权的访问,并确保系统的连续性和可用性。可以使用基于策略的密钥加密算法以确保只有被授权的用户和应用程序才能够访问平台。

端点输入的验证/过滤。在一个大数据项目实施中,众多的端点可以提交用于处理和存储的数据。为了确保只有受信任的端点可以提交数据,而不会有虚假或恶意的数据被提交,企业需要对连接至企业网络的每个端点进行审批。但是,除了建议在可能的情况下将受信任的平台模块芯片(很多较新的端点设备已配置)引入验证过程之外,CSA工作组并没有提出一套可以缓解这一风险的建议措施。基于主机和移动设备的安全控制措施能够缓解与不信任端点相关的风险,以及围绕系统库存跟踪和维护的强进程。

安全性的实时监控。监控大数据平台和执行安全性分析都应当以近乎实时的速度完成。很多传统的安全信息与事件管理平台都无法在真实大数据项目实施中满足实际使用数据的规模(和格式)方面的要求。就目前而言,除非正在使用数据库和其他的前端监控工具,否则很少存在有真正的Hadoop监控和其他大数据平台。

可扩展、可组合、保护隐私的数据挖掘和分析。大数据实施可能会产生与数据泄漏和曝光相关的隐私性问题。事实上,目前已经有了很多的安全控制措施,如果这些措施能够切实落实到位的话,企业就能够应对这一难题,其中包括了对存储状态的数据使用强大的加密技术、执行对数据的访问控制、对工作流程和控制进行隔离处理以最大程度地减小内部攻击的成功率。

采用密码方式加强以数据为中心的安全性。从历史上来看,一直流行的数据控制方法都只能确保管理数据的系统的安全性,而不是确保数据本身的安全性。但是,实践不断地证明着,这些应用程序和平台都是非常脆弱的。使用强大的加密技术封装在云计算供应商环境中的敏感数据,以及使用实现密钥管理和安全密钥交换的新创新算法,都是管理数据访问的更可靠方法,特别是因为它存在于一个独立于任何一个平台的云计算中。

细粒度的访问控制。对诸如NoSQL数据库和Hadoop分布式文件系统这样的大数据存储采用细粒度的访问控制需要实施强制访问控制和完善的身份认证。 诸如Apache Accumulo这样的新NoSQL实施可以实现对键值对非常细粒度的访问控制;云计算服务供应商也应该能够清楚在他们的云计算环境中所采用的访问控制类型。

细粒度审计。连续监控、定期审计、日志与事件数据分析等方法的综合使用将有助于在大数据环境中检测入侵或攻击事件。这里的关键控制在于集中关注大数据环境内外所有层的日志记录。

数据出处。 在这种情况下,数据出处主要关注数据的验证和可信度。身份验证、端到端的数据保护和细粒度的访问控制等方法将有助于解决大数据环境中数据来源的验证和确认问题;云计算服务供应商应当已将这些控制措施落实到位,以解决其他的问题。

结论

在很多云计算服务供应商环境中,都是以某种方式进行大数据采集和处理的。虽然大多数企业可能还没有拥有大数据平台和落实内部控制措施,但是了解云计算环境中企业数据所面临的主要威胁和风险是非常重要的。通过利用CSA工作组在大数据应用方面的研究成果和明确关注应当落实到位的关键控制措施,企业消费者就能够对在他们服务供应商环境中大数据项目的基础设施和应用程序的状态做出正确的评估。

作者简介:

Dave Shackleford是Voodoo安全有限责任公司的所有人和咨询师、IANS资深导师、SANS研究院分析师、高级讲师和课程作者。他已为数百个组织在安全、法规合规性以及网络架构与工程领域提供了咨询服务,是具有丰富安全虚拟化基础设施设计和配置经验的VMware vExpert。Dave之前是Configuresoft公司的CSO、互联网安全中心的CTO、并曾出任多家财富500强公司的安全架构师、分析师和经理。Dave是Sybex一书的作者,虚拟化安全:保护虚拟化环境,以及信息安全课程技术的合作设计者。最近,Dave为SANS研究所合作设计了第一个虚拟化安全课程。目前,Dave在SANS技术研究院担任董事一职,并协助领导云计算安全联盟的亚特兰大分部。

这样的信息,或者构建身份认证系统,否则就不需要HSM。

责任编辑:王程程 来源: TechTarget中国编译
相关推荐

2013-07-30 09:14:25

2013-04-27 14:39:40

大数据全球技术峰会

2021-04-20 08:00:00

云计算数据分析大数据

2020-11-30 15:11:51

大数据

2013-04-15 11:41:40

信息安全大数据大数据全球技术峰会

2014-12-17 10:35:17

大数据分析 HadooApacheSqoop

2024-03-13 10:04:52

2022-08-08 10:20:19

数据安全首席信息安全官

2015-10-14 14:58:13

2016-03-21 09:25:01

2013-01-23 09:59:50

2019-10-22 13:33:44

大数据数据分析技术

2022-05-06 10:31:10

大数据安全大数据平台数据安全

2013-01-15 13:34:26

移动安全大数据

2013-04-27 15:39:03

2012-12-04 17:08:02

2023-05-05 15:57:33

2018-05-09 11:22:15

2013-05-03 00:41:57

大数据NoSQL

2017-08-02 14:31:58

大数据集群数据存储
点赞
收藏

51CTO技术栈公众号