【51CTO.com快译】“数据湖”(Data Lake) 这一术语已经推出了将近10年的时间,如今已经成为从大型数据存储库中的数据挖掘中形成竞争性见解的关键工具。
Pentaho公司创始人James Dixon在2010年创造了“数据湖”这个术语。他对“数据湖”给出了这样描述:“如果将数据集市看作是一个瓶装水的储存地——经过清洁、包装和结构化以便消费,那么数据湖就是在自然状态下的一个大型水体。”
随后很多人质疑组织是在创建具有业务价值的数据湖,还是创建价值有限或没有价值的数据沼泽。有鉴于此,行业专家Marco Iansiti和Karim Lakhani建议说,“数据湖(其中的数据是原始来源)是数据平台的一部分,数据从下到上流动……数据平台聚合、清理、精炼和处理在数据湖中捕获的数据”。
考虑到这种更为精细的观点,那么问题是:数据湖在其炒作周期内发挥了什么作用?为了回答这个问题,行业媒体征求了一些首席信息官和行业专家的意见。
数据湖产生了什么结果?
首席技术官Steve Jones说:“我所在的组织部署了很多数据湖,通常它们有三点基础:(1)弥补传统企业数据仓库的不一致的鸿沟;(2)使机器学习和人工智能更容易实施;(3)数据的提取和整理实现产业化。这样做的目的是让组织专注于结果,而IT团队专注于供应数据,而不是将系统集成到数据集市/仓库中。如果有了这些,那么用例就会变得无穷无尽。”
作为数据湖实施者,首席信息官Deb Gildersleeve表示,她所在的组织已经为业务部门实现了特定主题的数据湖,它们在获取见解并为企业用户提供访问方面确实起到了很大作用。”
首席信息官Jim Russell表示,也采取了类似的自助服务方法,并部署了适用于供应商的数据湖。他说,“它是我们三年成熟计划的一部分,以修复数据并开始查看流程。其驱动力很难判断,因为它代表了我们组织的总体范式转变。因此,它证明了这一点,但并不令我们感到惊讶。”
同时,企业架构师Craig Milroy表示,“我们已在不同的平台(AWS、Azure和Cloudera)上分别继承了一个数据湖。每个领域都专注于从数字到5G的特定业务成果。我认为我们正处于价值驱动之旅的起点。要使业务价值和成果与技术投资保持一致,还有很多工作要做。”
与此同时,首席信息官Melissa Woo认为从其数据湖中获得的业务成果并不确定。她说:“我们的分析主管在数据湖变成现实之前就实施了一个数据湖,但是对于我们的组织而言,并没有那么多需求。我们的客户仍然需要传统的数据仓库和报告编写功能。我们公司总裁仍然对建立适当的基础设施可能产生的结果非常感兴趣,并且非常喜欢数据湖这一术语。”
更糟糕的是,首席信息官Ben Haines说:“许多数据湖变成了数据沼泽,浪费了数据机会。”以上的讨论导致Mark Thiele提出一个问题,“数据湖是否取代了其他数据存储库,还是只是一种增值服务?”
与数据仓库相比,数据湖面临的最大机遇是什么?
对于电信行业高管Mil Roy来说,数据湖提供了对来自5G终端的大量非结构化数据的支持。这不适合传统的数据仓库方法,尤其是在线/实时流式数据和分析功能。他表示,针对特定业务需求,将适合特定用途的工作负载部署到数据湖。
Stephen diFilipo对Milroy的建议表示认同,并表示,“数据湖提供了收集、存储和分析所有数据、格式、非结构化元数据的功能,而这是传统数据仓库存储库无法实现的。”
与类似的观点一样,Gildersleeve认为数据湖的最大机会是能够应用焦点,并比传统数据仓库移动更快。这样可以使更多人访问数据。
首席技术官Steve Jones在这一点上断言,数据湖和数据仓库之间的区别在于能够从“更改数据捕获”转变为所有更改的历史。使用数据湖,无需仅提取报告所需的数据,就可以捕获整个历史记录。
Gartner公司分析师Nick Heudecker对这一讨论进行了总结,他说:“数据湖应被视为勘探系统。它们为数据仓库方法提供了补充。”
数据湖项目成败的驱动因素是什么?
对于成功的数据湖项目的性质,首席信息官们有着不同的看法。一些人认为,当多个业务组数据合并以创建融合而不是历史报告的总和时,数据湖是最好的利用方式。首席信息官Melissa说,“这已成为我们解决问题的一部分。如果不同的群体不愿意提供数据,则没有什么价值。显然,分析的成熟度仍然很重要。但是,成功完成这一任务的组织将成为分析公司或竞争对手。”
首席信息官McBreen说,“当企业能够为共同的目的而合作时,这就像来自许多设备、合作伙伴和重要领域的数据流,但我们只是从头开始。对于人工智能和机器学习来说,这可能是使用它们进行增强。”就成功或失败的驱动因素而言,首席信息官帮助执行团队理解有价值的数据湖和数据沼泽之间的区别是很重要的。常见问题包括:
(1)缺乏业务定义的用例/结果。
(2)缺乏人际交往能力。
(3)资源不足。
(4)过高的期望。
(5)数据素养和流利性。
(6)数据质量。
(7)数据治理。
Heudecker表示:“数据湖部署经常遇到困难,因为尚未确定目标受众。这会影响可用的工具,所需的数据素养水平等等。而认为数据湖只是一种服务的观点是不正确的。”
随着首席数据官的出现,首席信息官可以在哪里增加最大价值?
diFilipo建议说,“企业的首席信息官也将成为为首席数据官提供数据平台的数据资产经理。”
Craig Milroy表示,由于这个原因,首席信息官们应该让分析、数据科学更容易获得高质量、更容易理解的数据,从而推动业务价值和成果。
结语
首席信息官在数据管理中继续发挥着重要作用。数据湖为他们提供了增值的潜力。显然,随着数据湖的应用结果喜忧参半,许多组织在业务上面临失败。但是对于那些将数据湖视为生成数据平台或用数据结构分析的一些组织来说,加速业务转型付出一些代价都是值得的。
原文标题:Key Trends in Data Lakes,作者: Guest Author
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】