厂商正在寻找“大数据”来帮助政府解决目前面临的一些紧迫问题。但是,大数据本身通常也会带来一些IT和信息安全方面的问题。厂商经常接触大数据,仿佛这些大数据能够使他们的数据库容量迅速扩展和增加。因此,大数据的含义并不仅仅是大型数据库,它包括新的工具、技术、部署和运营方式。大数据通常是云计算和虚拟化战略不可分割的一部分。如果仅从传统的IT角度来看,大数据意味着“大曝光”,这给信息安全带来了风险。
类似于它接触的传统
虽然大数据的权威定义存在着争议,但由于传统IT专业人士的任务主要集中于如何处理、存储和传输大数据,市场研究公司Forrester的分析师Mike Gualtieri给出的如下定义则易于被这些专业人士接受:大数据是一家公司存储、处理和访问所有数据能力的前沿。企业需要这些数据以便更有效地运营、作出决策、减少风险并服务客户。
大数据的某些方面,包括应对传统挑战的传统IT方式,并不需要全新的观点。事实上,许多厂商已经为开发大数据安全的方法奠定了基础。这个基础包括云计算成熟的流程、持续监控和遵守《联邦信息安全管理法案》(FISMA)。例如,随着厂商优化自己持续不断的监控能力,他们可以利用现有的支持大数据的工具,包括安全漏洞管理和补丁服务。虽然这些能力都是解决大数据安全问题必不可少的第一步,但是,当考虑大数据与过去的海量数据处理和存储之间的差异时,还需要一种新观点。
差异
大数据包含许多新技术、工具和做法(如,Hadoop, NoSQL, Pig, Hive, HBase等)以及数据仓库策略,其中许多东西对于专业的安全人士来说都是陌生的,也形成了一个复杂的运营环境。
下面的例子充分展示了一些运营环境的复杂性,从安全角度和IT技术治理角度来看,这些复杂性属于非传统因素。
数据库结构:虽然大多数传统的数据库厂商支持大数据,但是,他们是通过基于SQL或者其他相关结构来运行的。Hadoop和下一代数据库都是为非结构化数据而设计的。
伸缩性:虽然基于主机的大小,大多数结构化数据库系统是向上扩展的,但是,下一代技术则是水平扩展或是集群。一个厂商也许会利用500个小型系统同时运行形成一个集群,来代替一台单一的数据库服务器。这些小型系统中有些可能是虚拟的,有些可能是物理的,有些可能是在云中的。
配置管理:曾经,《联邦信息安全管理法案》要求厂商开发出强劲的配置管理计划,改组管理委员会,并确保安全影响分析作为系统改变的一部分来执行。当处理大数据的时,成熟且强劲的配置以及改变管理方式都是必须的。
成本:由于新的节点可以在任何云提供商环境中或在一个厂商里的附加桌面上自动添加,所以要严格控制IT资源及支出成本。
运营:谁负责修补漏洞?谁负责漏洞扫描?如果软件有漏洞且联系不上厂商修复这个漏洞会发生什么事情?保证最基本的运营维护并且在决策制定过程中分配附加资源。由于拥有许多能够利用云服务的大数据平台,安全团队一定要清楚任何改变都应该作为系统寿命的一部分来实施。
大数据仍然依赖同样的IT基础设施,就像系统在过去做的一样。但是,大数据能够极大地扩张并且使它复杂化。Hadoop等新软件缺少成熟的安全模式、评估技术和自动化工具。这意味着安全团队基本上依赖一些可操作的和可管理的技术,包括隔离和强大的可审计的访问控制技术,以保证大数据不会成为“大曝光”。安全团队必须以保护基础设施和操作系统的整体的角度观察大数据,尽可能使用自动化的和现有的政策。
根据《联邦信息安全管理法案》,通过使用具有成熟的改变和配置管理流程的方法,厂商可以利用大数据安全的好处。安全团队需要更加相互协调并且参加数据科学家和业务部门的生活以便了解他们的工作方式以及他们的需要。虽然大数据对于许多厂商来说都是新的,但是,保护信息的原则和为运营引进成熟的管理通常不是新的。厂商应该利用其现有的运营和管理控制保护新的技术,同时开发自动化工具以增强严谨性、成熟度和自动化。(编译/胡杨)