大数据安全无异于关系型数据安全。事实上,其差异很大。不仅实时性和数据量不同,而且带来独特困难的分布式架构也有差异。除此之外,大数据使用不同的存储模式和查询模式,而且要在多个网络通信会话之间协调任务。许多安全产品所使用的监视、分析日志文件、发现数据和评估漏洞的技术在大数据环境中并不能有效运行。多数安全产品不能进行调整,从而无法满足大数据集群领域,也不能完全理解其面对的信息。为解决大数据的安全问题,需要重新实现或全面设计多数安全工具的架构。
大数据还未用于生产中:大数据项目在内部IT过程的外部运行,并使用第三方的资源,所以在某些方面大数据被认为是“忽悠”。但大数据实际上是生产性部署,它共享客户数据、与不同的系统交换报告,并会形成能够决定业务决策的知识产权。大数据的存在有点儿像上个世纪九十年代末期的互联网:很多人曾认为网页和互联网是“一时流行的狂热”,但到这些人开始大量使用互联网时,这些技术已经在业界广泛使用了。大数据技术也是“新生代”,但其影响却是实实在在的,而且就在我们身边。
现有的安全工具对大数据都是起作用的。你可以把现有的产品联接到大数据的配置中,但这并不意味着这些产品可以运行。有时,为使大数据与某种安全产品“联姻”,你需要调整大数据集群的部署方式,或调整应用程序与大数据的通信方式。安全产品不应当限制大数据的核心功能,否则就不称其为大数据了。问题是,多数安全产品确实给大数据带来某种限制。如果你的安全厂商说自己的产品“在特定情况下大体上可以运行在大数据环境下”,那么,你不妨找一家更专业的解决方案。
大数据集群中不保存敏感数据:大数据集群常常有意无意地存储敏感数据。许多大数据的发起商说它们并不收集敏感数据。但是在与架构师和数据管理员交谈时,他们会有不同的说法。通常,为了获得更多数据并提供更好的分析,包括敏感信息在内的数据源都会被接纳到大数据的集群中。