截至2012年12月,全球互联网用户达到24亿;2012年,智能手机出货量达到4.27亿部。在IT迅速变革的今天,看看一分钟之内会有多少事发生吧:27.8万条Twitter信息发出,2.04亿封电子邮件被发出,15000条歌曲从iTunes上被下载,571个新网站被创建。今天,我们已经进入数据爆炸式增长期,而80%能访问到的数据都是过去2年生成。
据预测,2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB。进入大数据时代,我们就不能不提Hadoop。很多组织意识到,利用Hadoop构建大数据项目,会让自身获得新的发展制高点。不过,Hadoop的安全隐患却被很多人忽略。
被忽略的Hadoop安全隐患
Hadoop是一种用于大数据的应用程序,建立在MapReduce(用于超级计算的普通方法)基础上,能让用户访问部署在一系列计算机集群上的数据,并做简单编程,对所使用的数据进行简单分析,由此对大数据进行管控。
不过今天,除了少数互联网公司把Hadoop用得较好之外,中国很多Hadoop用户,还只是用Hadoop来做日志事件处理。人们对于Hadoop的关注点仍然停留在比较基础的阶段,如:算法怎么写,分布式系统软件如何部署,数据应该怎么规划等。Hadoop自身的安全问题尚未受到普遍重视。而一旦Hadoop被用于对商业决策有重要影响的事情时,计算结果的准确与否就变得至关重要,如果出错,用户可能就会犯下发展方向上的错误。在此阶段,Hadoop自身安全问题尤其不容忽视。
Hadoop出现之初,并不是一个企业级工具,并未被考虑到太多安全性问题,体现在:安全策略管理较弱,访问控制较弱,没有合规性设计,授权也做得不足。虽然也有做授权认证的Kerberos工具,但Kerberos的配置太难太复杂,以至于一些用户选择放弃使用Kerberos。
Hadoop有很多Web接口,所有应用都可能出现能被黑客利用的缺陷和漏洞。Hadoop还提供了很多衍生应用程序,但每当在一个应用程序上再叠加一个应用程序,也就增加了一层风险。数据安全方面,Hadoop数据不加密,数据很容易被窃取或被泄露;Hadoop数据完整性不能保证,极易被篡改,组织一旦用了被篡改的数据就会得到错误的数据分析结果,从而产生错误的业务决策。
为Hadoop构建安全模型
Hadoop安全模型
在趋势科技全球核心技术总监Jon Clay看来,构建Hadoop的安全模型可采用分层方式进行。在最外层必须进行良好的访问控制,确保只有有相关权限的人才可访问Hadoop数据;第二层是网络威胁防御,设定相关机制,防止网络受到入侵;第三层是应用层程序升级,确保没有漏洞;第四层是数据保密,防止数据被窃取;第五层是保证数据的完整性,使数据不会受到篡改。基于上述五层保护策略,就可获得基于Hadoop结构的安全策略模型。
趋势科技全球核心技术总监Jon Clay
基于五层安全保护策略,趋势科技正致力于为用户提供Deep Security的Hadoop版本。趋势科技中国区业务发展总监童宁表示,现有的DeepSecurity解决方案中有防火墙功能,也可进行入侵阻止,并进行网络防护。Deep Security的Hadoop版本将会被加入数据加密功能,及完整性监控及日志检查功能。这一解决方案可被用于物理机上,也可被用于虚拟机上。
Deep Security解决方案的Hadoop版本可以实现:第一层的访问控制,Deep Security防火墙功能可进行访问控制、授权等;第二层的网络威胁防御,它提供了IDS/IPS功能;第三层的系统应用程序威胁防御,能提供虚拟补丁、Web应用防护及防恶意软件;第四层的数据加密;第五层的数据完整性保护,完整性监控策略可帮助用户快速找到相应文件,并确保这些文件不会被篡改。另外,Deep Security的Hadoop版本中的日志检查方式可帮助用户浏览有无异常行为发生。通过提供适用于虚拟化Hadoop环境的无代理安全,趋势科技能帮助用户监控虚机之间通讯,并高效利用资源,简化管理,降低成本。
在多数厂商仍在逻辑和概念层面讨论大数据安全时,趋势科技已经计划在一年内推出Deep Security的Hadoop版本,率先让大数据安全实现落地。这跟趋势科技自身使用Hadoop计算系统构建智能安全防护网络密不可分。2007年,随着互联网的发展,网络威胁事件快速增长,传统安全方法不足以应对,趋势科技一改传统的序列化数据处理方式,引进Hadoop计算系统,把所有接收到的事件进行分类和交叉处理,并利用Hadoop系统进行运算,由此形成智能网络防护云。也正是在对Hadoop的使用过程中,趋势科技发现了其中的安全隐患,并开始研究安全策略,并由此较早在大数据安全方面有实际成果。