大数据对于商务人士来说是让人兴奋的产物,许多的大数据杀手级应用将不断出现。对于存储管理员来说,存储基础设施将不断增长,这是毫无疑问的。你一直都在所有客户中收集终端用户每毫秒的行为数据,想象一下如果你可以立即查看所有数据,不需要考虑数据监管、数据管理、数据保护和其它所有相关的烦恼,你需要做的只是把你所有的数据放到一个相对廉价又具备扩展性的Hadoop存储中,这是多么令人期待的事!
大数据湖能够满足不断增长的数据需求,并为你的业务提供有价值的服务。通过将不同来源的数据集采集到一个集中平台,使用容易扩展的大数据方法提供多租户的分析服务,还会创造许多新的数据挖掘机遇。数据湖的总潜力值随着可用于分析的数据量增加。一个大数据和大数据湖的关键原则是你不需要提前建立主数据模型,非线性增长是不会出现的。
企业数据湖或hub的概念最初是由Cloudera和Hortonworks这样的大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但你的数据量越大,你越可能需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。
所以,今天传统的存储厂商正在分析大数据湖的前景。从存储市场的角度来看,数据湖就像另一个云计算一样。“所有人都需要一个数据湖,你怎么能够没有一个(甚至两个、三个)?”但企业使用存储有多种选择,可以采用支持HDFS和Hadoop虚拟化的企业级存储,这种存储可以将其它存储协议转换成HDFS。也可以采用可扩展的软件定义存储。
数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。在商业智能(BI)和数据仓库还没有被淘汰的今天,大数据分析和大数据湖正在向更多类型的实时智能服务发展,这些实时的智能服务可以支持实时的决策制定。Hadoop和它的生态系统已经度过了它们的理论研究阶段,它们已经可以为实际的应用需求服务了。数据管理和数据分析的应用程序已经开发得非常友好,高级的向外扩展机器学习技术也已经投入应用并嵌入至只需要用鼠标就能简单操作的大数据挖掘软件中。然而,IT仍然需要对数据湖里的所有数据负责,所以在这里我们列举了几个企业数据湖的几个关键特点:
保存一份集中的数据索引(或元数据),包括数据源、版本、精细度和准确度。如果在这方面没有自动化的支持,一个数据湖会很快被冲垮。
对数据进行安全的授权、审计和访问控制。Hadoop生态系统在数据安全性方面正在快速发展,因为这是企业的强制性需求。有许多新产品为大数据资产提供一定的安全性,也有许多产品致力于保护数据湖中的大量新数据、用户和不断增长的资产价值。
对数据湖中的数据启用监管功能,并强制启用保留(retention)和处置(disposition)策略(以及追踪个人可识别信息)。***秀的产品(如Dataguise)会强制使用监管和合规需求,无论数据湖中有多少数据或是什么类型的数据集。
为操作可用性和BC/DR需求确保一定规模的数据保护。远程复制是必要的吗?已经成为了一个关键业务运营平台的数据湖里的大量实时数据流对远程复制来说就是洪水猛兽。
使用多种大数据分析方法(不仅仅只是Hadoop)和工作流利用数据湖提供敏捷分析。在某种程度上,Hadoop和HDFS实际上是软件定义存储产品,它们具有数据感知功能,可以提供内置的大数据分析服务。但也有其它产品也能提供很好的数据湖解决方案,如Spark和一些专有的OLAP或在线分析处理大数据分析平台(如HP Haven等)。
我们在今天的企业级存储产品可以找到上面提到的这些功能,它们说明了为什么许多厂商热衷于数据湖领域,因为云和大数据会带来很大的经济效益。注重质量的企业级软件定义存储会成为这一领域的***。
数据湖真的是一个好的方案吗?一个我们最开始可能会问的问题就是我们是否真的需要把所有的数据都汇聚到一起?在一个地方建立整个企业的数据聚集点会带来巨大的风险。另一个的问题是数据湖真的是一个节约成本的解决方案吗?特别是像Google、Facebook这种具有海量数据的公司。
大数据湖能够满足不断增长的数据需求,并为你的业务提供有价值的服务。通过将不同来源的数据集采集到一个集中平台,使用容易扩展的大数据方法提供多租户的分析服务,还会创造许多新的数据挖掘机遇。数据湖的总潜力值随着可用于分析的数据量增加。一个大数据和大数据湖的关键原则是你不需要提前建立主数据模型,非线性增长是不会出现的。
企业数据湖或hub的概念最初是由Cloudera和Hortonworks这样的大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但你的数据量越大,你越可能需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。
所以,今天传统的存储厂商正在分析大数据湖的前景。从存储市场的角度来看,数据湖就像另一个云计算一样。“所有人都需要一个数据湖,你怎么能够没有一个(甚至两个、三个)?”但企业使用存储有多种选择,可以采用支持HDFS和Hadoop虚拟化的企业级存储,这种存储可以将其它存储协议转换成HDFS。也可以采用可扩展的软件定义存储。
大量,快速,现在
数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。在商业智能(BI)和数据仓库还没有被淘汰的今天,大数据分析和大数据湖正在向更多类型的实时智能服务发展,这些实时的智能服务可以支持实时的决策制定。Hadoop和它的生态系统已经度过了它们的理论研究阶段,它们已经可以为实际的应用需求服务了。数据管理和数据分析的应用程序已经开发得非常友好,高级的向外扩展机器学习技术也已经投入应用并嵌入至只需要用鼠标就能简单操作的大数据挖掘软件中。然而,IT仍然需要对数据湖里的所有数据负责,所以在这里我们列举了几个企业数据湖的几个关键特点:
保存一份集中的数据索引(或元数据),包括数据源、版本、精细度和准确度。如果在这方面没有自动化的支持,一个数据湖会很快被冲垮。
对数据进行安全的授权、审计和访问控制。Hadoop生态系统在数据安全性方面正在快速发展,因为这是企业的强制性需求。有许多新产品为大数据资产提供一定的安全性,也有许多产品致力于保护数据湖中的大量新数据、用户和不断增长的资产价值。
对数据湖中的数据启用监管功能,并强制启用保留(retention)和处置(disposition)策略(以及追踪个人可识别信息)。***秀的产品(如Dataguise)会强制使用监管和合规需求,无论数据湖中有多少数据或是什么类型的数据集。
为操作可用性和BC/DR需求确保一定规模的数据保护。远程复制是必要的吗?已经成为了一个关键业务运营平台的数据湖里的大量实时数据流对远程复制来说就是洪水猛兽。
使用多种大数据分析方法(不仅仅只是Hadoop)和工作流利用数据湖提供敏捷分析。在某种程度上,Hadoop和HDFS实际上是软件定义存储产品,它们具有数据感知功能,可以提供内置的大数据分析服务。但也有其它产品也能提供很好的数据湖解决方案,如Spark和一些专有的OLAP或在线分析处理大数据分析平台(如HP Haven等)。
我们在今天的企业级存储产品可以找到上面提到的这些功能,它们说明了为什么许多厂商热衷于数据湖领域,因为云和大数据会带来很大的经济效益。注重质量的企业级软件定义存储会成为这一领域的***。
前景还不清晰的数据湖
数据湖真的是一个好的方案吗?一个我们最开始可能会问的问题就是我们是否真的需要把所有的数据都汇聚到一起?在一个地方建立整个企业的数据聚集点会带来巨大的风险。另一个的问题是数据湖真的是一个节约成本的解决方案吗?特别是像Google、Facebook这种具有海量数据的公司。
数据湖的方案***是慢慢来实现,而不是大规模的重新设计整个数据中心。数据湖的价值取决于我们的数据,大规模的部署向外扩展的共享架构将使许多组织从数据湖(至少是数据池)中汲取养分。