智能虚拟化技术正在消除数据孤岛？

作者：大喵 2020-03-24 11:25:19

对于以数据为驱动力的企业来说，可能会对隐藏在海量数据中的业务和客户有着比较全面的认知，同时，这也是为什么智能虚拟化技术致力于消除数据孤岛的原因。

在瞬息万变的信息时代，成功从数据中获取有价值信息的企业，将在竞争日益激烈的市场中保持其独有的竞争力。对于以数据为驱动力的企业来说，可能会对隐藏在海量数据中的业务和客户有着比较全面的认知，同时，这也是为什么智能虚拟化技术致力于消除数据孤岛的原因。

[[319730]]

数据湖是大势所趋吗?

未来，数据只会变得更加多样化、动态化和分散化。许多企业试图收集他们全部的数据，并通过将全部数据抛入一个数据湖中来使其可访问，数据湖可以以其原始格式来保存数据，直到需要进行分析为止。

这种做法或多或少还是有说服力的，大部分公司是可以承担得起数据科学家收集，翻译并分析数据湖中各种类型数据的费用。

对数据即存即取的需求已日趋强烈!

企业间竞相收集和分析尽可能多的数据，旨在获得与同行相比哪怕是很微小的竞争优势。传统的数据湖无法处理新出现的数据源和正在创建的新的本地数据库。

查询必须匹配用户正在使用的特定数据库，因此用户拥有的数据库越多，就需要使用更多的查询语言。重要的是，在一个数据湖中集成不同的数据，仍然需要人工处理以使其具备可访问性和可读性，这项工程对于数据工程师和数据科学家来说是非常耗时的。

数据湖缺乏灵活性，在数据驱动的经济中将不再适用

因此，许多企业正在把目光转向数据虚拟化，以优化其分析和BI。BI和数据正连接他们所有的数据，并使其可从一个地方读取和访问。

并非所有的数据虚拟化都是相同的。

数据虚拟化创建了一个软件虚拟化层，该层集成了所有跨企业的数据。无论数据的格式是什么，或者数据驻留在哪一个筒仓、服务器或云中，数据都会被转换成一种通用的业务语言，并可以从单个门户访问。

从理论上讲，这赋予了组织一个共享的数据湖，所有不同的业务单位和业务用户都可以立即访问他们需要的数据。拥有快速访问权限，使企业能够为共享目的做出数据驱动的决策。

然而，很多数据虚拟化解决方案并没有达到分析的理想效果。这有几个关键原因：

1. 专有格式

不少数据虚拟化供应商会将所有数据合并且转换成一种专有格式。虽然合并允许将数据集成到单个视图的单个位置，但供应商的专有格式常常将数据简化为最小的公共分母状态。

公共分母状态可能致使某些数据出现偏差，失去特定的功能，甚至在转换的过程中丢失。有些数据还可能要求其原始数据库的上下文是关联的。因此，用户可能会从错误的数据中汲取信息，并做出适得其反的商业决策。

2. BI工具不兼容

BI工具对于企业来说是一笔金额相当大的投资。大多数企业级公司在不同部门拥有几种不同类型的BI工具。例如，一个部门可能使用Tableau，而另一个部门可能使用MicrosoftPowerBI或Excel。

要让大数据分析在企业中充分发挥作用，前提是不管用户喜欢使用什么工具，数据都是易于发现，并能被所有的用户访问。

许多供应商使用的专用数据格式可能无法与公司已经投入的技术进行互操作。不同的工具使用不同的查询语言，显示数据的方式也各不相同。当定义不一致的数据被集成时，分析过程中可能会出现代价惨痛的失误。

选择合适的BI工具对于尽量减少业务中断，最大限度地提高用户的生产力至关重要。

3. 查询限制

随着数据不断增长和技术的快速发展，查询会变得越来越复杂，这对于分析工作负载和处理大规模数据来说并不太理想。管理的数据源越多，就越需要更多的数据工程来支持快速、交互式的查询。

分布式连接移动大量数据并不适用于交互式查询。它给企业基础结构带来了不可预测和不可接受的压力，而简单的数据缓存对于动态查询环境和当今的数据大小来说是不够的。

当将BI和AI工作负载添加到混合工作负载中时，性能会迅速下降，从而促使最终用户寻找其他直接访问数据的路径，这就使数据虚拟化没有利好可言。

除了这些扩展缺陷之外，传统的虚拟化产品在解决分析用例方面表现的也很差强人意。

扩展大型且复杂的数据服务需要对细节有深入了解：有关数据的统计、所涉及的数据库、共享资源的负载、数据使用者的用例和意图、安全性约束等。

虚拟化解决方案需要为用户提供其数据的业务整体视图，包括层次结构、度量、维度、属性和时间序列。

数据虚拟化应该提供什么?

大多数数据虚拟化解决方案的发展步伐与今天的数据集和数据科学实践不同，仍然依赖于传统的数据联合方法和简单的缓存技术。然而，还有更多的下一代智能数据虚拟化专为当今复杂且对时间敏感的BI需求而设计。

如果你的数据虚拟化解决方案没有提供以下功能，那就说明它不够智能。

1. 自主数据工程

人类永远不可能是完美的;幸运的是，计算机可以。

鉴于现代数据体系结构的复杂性，人类面对这一问题根本是就束手无策，至少不能以现在保持竞争力所需的速度进行运算。这就是数据虚拟化解决方案需要提供自主的数据工程的原因。

自主数据工程可以根据无数的连接和计算结果自动推断出优化结果，而这是人脑无法达到的。机器学习(ML)是用来剖析公司的所有数据并检查它是如何被查询并集成到整个组织的所有用户正在构建的数据模型中的。

自动化数据工程可尽可能节省大量的资金和资源，同时释放数据工程师来执行对组织更有价值的更复杂的任务。

2. 加速结构

智能数据虚拟化还可以自动实现将数据放入特定的数据库，从而达到最佳的性能。

有许多类型的数据和不同的格式比较适合这些数据。

智能数据虚拟化可以基于生成最佳性能的位置自动决定将数据放在哪个平台上。不同的数据平台具有不同的优势。例如，如果用户的数据模型和查询正在处理时间序列数据，那么智能数据虚拟化将在数据库中放置一个针对时间序列数据进行优化的加速结构。从而自动获悉哪个数据库具有哪些优势，然后加以利用，不同数据库类型的可变性都能将其转化为优势。

加速度结构可节省大量云运营成本。根据用户正在使用的平台，可能会对数据库的存储大小、运行的查询数量、查询中正在移动的数据、问题中的行数、查询的复杂性或其他变量收取费用。

例如，使用GoogleBigQuery，需要支付的金额与数据库的大小以及查询的复杂程度成正比。

当用户自动使用加速结构进行性能和成本优化时，只对在加速聚合中使用的查询数据收取费用，而不是对整个数据库的大小。

3. 自动数据建模

下一代数据虚拟化不仅提供对数据的转换和访问，智能数据虚拟化还可以自动获悉每个数据平台的功能和局限性。它会自动识别哪些信息是可用的，以及如何在建立模型时将其与其他数据合并和集成。

智能数据虚拟化可以对用于创建旧版报表的数据模型和查询进行逆向运作，因此用户可以继续使用相同的报表，而不必重新构建数据模型或查询。例如，如果用户在旧系统中创建了一个TPS报告，则仍然可以能够在新系统中检索到它。

有些查询可能是在旧数据基础上运行的，但它们仍然可以在新系统上运行，而无需任何重写。

4. 支持自助服务

近年来，IT的很多方面变得“大众化”了--也就是说，技术的进步(尤其是云计算)使它们变得“大众化”。使得那些没有广泛技术基础的外行人也可以使用这些技术。虽然分析和商业智能已经落后于民主化趋势，但是BI工具现在越来越适合普通大众使用。

BI的使用引导了一种新的“自助服务”分析文化的发展，在这种文化中，业务用户可以使用自己喜欢的BI工具直接访问和分析数据，而不必依赖数据工程师或数据分析人员。

自助分析正迅速成为企业中优化大数据分析的必要手段。

例如，假设销售部门保存有关于前一年的支出的数据，但希望使用关于多个领域的客户行为模式的数据来进行补充。或者，营销部门需要发起一场基于账户的营销活动，目标是那些被认为最有可能更换供应商的公司。

通过自助服务分析，销售或营销部门的业务用户可以访问这些数据，并使用恰当的工具调用这些数据。自助分析被使用，而不是依赖于训练有素的数据工程师来为BI工具获取数据，以及数据科学家来建模和预测。

借助自助服务动态，组织中的每个部门都可以将自己的经验和专业知识应用于BI，从而实现全新的便利性。

智能数据虚拟化提供了一个业务逻辑层，它实际上将所有数据转换为一种公共业务语言，这种语言既与源无关，也与工具无关。有了逻辑层，就意味着业务用户可以使用他们喜欢的任何BI工具，且不必屈从于BI软件的单一标准。

无论用户使用什么工具或使用多少工具，所有数据都是可访问的，并且所有查询都将返回一致的答案。标准和逻辑的解释使企业具备共享数据智能和自助服务文化的能力，而这种文化在当今数据驱动的业务环境中变得越来越必要。

5. 安全保障

在追求数据用户化的过程中，无论便利性和成本效益如何，都不能牺牲安全性和合规性。

众所周知，虚拟化层会带来安全风险。但是，使用下一代智能数据虚拟化，数据将继承了所有数据库的安全和治理策略。透明的管理过程意味着用户的权限和策略保持不变。

通过跟踪数据的源头和用户身份，将所有现有的安全和隐私信息保存到各个用户。

即使在使用具有不同的安全政策的多个数据库时，这些策略也可以被无缝地合并，并且自动应用于全局安全和遵从协议。在采用智能数据虚拟化之后，不需要采取其他步骤来确保安全性和遵从性。

数据虚拟化必须随着其他IT部门的发展而发展

对企业而言，拥有用户化的数据和拥有可读、可访问和可靠的数据同样重要，但现如今，不少公司都陷于海量数据的泥淖。越来越多的分布式模型以动态和多样化的格式和用例添加到数据中。如果用户无法快速找到并分析所需数据，并确信它们的准确性和最新性，BI质量就会下降，从而导致基于数据的决策不够理想。

因此，数据虚拟化需要不断发展以应对这些新的挑战和复杂性，这样它才能真正地用于大数据分析。

如果数据虚拟化解决方案不能提供自主的数据工程，加速结构，如自动数据建模，自助服务分析，就存在问题了。用户需要无后顾之忧的安全性和遵从性，或者是平台语言的多维语义层。如果没有这些流程，那么数据虚拟化解决方案就一定不够智能。

责任编辑：赵宁宁来源：物联网空间站

智能虚拟化数据湖数据