Hadoop,作为被大肆宣传的大数据利器,设计初衷是为搜索引擎建立网页索引,而不是处理信用卡号,所以安全并不是其重点考虑的问题。基于这个原因,许多企业对Hadoop都是浅尝辄止。目前,包括Cloudera、Intel在内等多个Hadoop发行版厂商,都在实行或制定安全方面的计划。
专利和补丁
Zettaset是一家为Hadoop发行版提供安全特性的公司,其董事长兼CEO Jim Vogt称:“今年很多公司都对Hadoop技术很感兴趣,但是其中很大一部分因为安全问题都望而却步。当真正衡量某一技术在一个企业或一个更广阔的市场的可行性时,安全问题是必须要考虑的。”
据Vogt称,Zettaset已经在管理和控制分布在Hadoop集群上多个服务器的加密密钥技术上有了专利方法。为了在Hadoop上实现安全的前提下,***限度控制性能降低,Zettaset明年将推出一个在集群中实现优先数据存储的系统。如果某块数据经常被访问,那么将这部分数据放在SSD会比在硬盘执行速度更快。当然,指出现有的不足,使用户意识到自己的基础设施是不安全的,直接受益者肯定是Zettaset以及其它提供安全服务的公司。
Cloudera产品副总裁Charles Zedlewski认为,安全问题主要设计四个方面:
身份验证:怎样确认你是否是某个系统的用户。
授权:可以控制用户能够读取的信息,以及针对特定数据用户可以进行的操作。
审计:审计可以提供满足监管需求的文档支持,查看是否有违规操作。
加密:为数据安全提供更多保障。
目前,在MapReduce、HBase、Hive和其它Hadoop程序中,原生的Apache Hadoop提供了其中的某些特性。比如,Hadoop中有严格的身份验证机制。Zedlewski认为从客户的角度考虑我们还需要提高的地方在于使其更易于安装和配置。
Zedlewski说:“加密是另一回事。数据可以在网络传输过程中被加密,这个功能两年前就实现了。涉及到‘静止’数据的加密,一些公司会采用如Gazzang和Vormetric等安全供应商提供的现成的加密库。”Cloudera正在考虑在自己的产品中加入加密功能,客户就不用再找其它安全服务提供商。Cloudera作为Hadoop市场领军者,这一做法很值得赞赏。
Zedlewski认为在授权方面,Hadoop还不够成熟。Cloudera希望客户可以自己决定某个表的授权粒度。例如一个10000条信用卡号码的表,如果你有查看部分数据的权限,那么基于表粒度级的授权机制,你没有访问这个表的权限,而基于记录粒度的授权机制,你能看到50条特定范围内的数据。换句话说,细粒度的授权机制,可以使更多员工获得访问权限。
Rhino项目
大约3个月前,刚刚加入Hadoop阵营的Intel,在Rhino项目下列出了希望在Hadoop中实现的安全特性。
在身份验证方面,实现一个不依赖外部源的新的内部系统,同时提供更好的单点登录功能。授权机制方面,可以跨越许多Hadoop应用程序,从批处理的MapReduce到HBase数据库。这些功能会被加入到Intel的Hadoop发行版中,其它发行版中可以作为补丁加入。
Knox项目
来自Hortonworks的几位工程师今年一直活跃在某个名为Knox的孵化器项目。Hortonworks的企业战略副总裁Shaun Connolly解释说,这个项目就像在Hadoop集群中的服务器周围构造一个大的虚拟围栏,对于可用的Hadoop服务只有一个安全网关可以进入。
MapR公司***营销官Jack Norris说:”MapR在试图加入加密密钥管理功能,包括对‘静止’数据的加密。就像Cloudera,MapR希望使安全问题更容易实现,尤其是传输过程中的数据加密和身份验证。”