数据准备经常被认为是在组织内利用数据的主要障碍,而为组织找到合适的工具可以取得突破。
要获得数据分析的好处,首先必须做好数据准备。根据调研机构Gartner公司最近的研究,对于许多组织来说,这是一个很大的瓶颈,他们70%的时间都集中在数据准备工作上。
Gartner公司数据和分析团队高级分析师、《Gartner公司数据准备工具市场指南》的主要作者Ehtisham Zaidi说:“寻找、访问、清理、转换数据,以及及时与合适的人共享数据,仍然是数据管理和分析中最耗时的障碍之一。”
Hitachi Vantara公司首席营销官Jonathan Martin表示,对于希望通过分析来转变业务的组织而言,主要问题不在于掌握人工智能,而在于掌握数据管道。
他说,“数据准备工作是很具挑战性的工作。如何确定所有这些数据在哪里?可以建立一个投资组合吗?是否可以设计管道以自动、托管和管理的方式将所有这些数据源连接在一起,从而使组织能够在正确的时间将这些数据获取到正确的位置、正确的人员、正确的机器?”
那么如何采用数据准备工具以解决这些问题?以及在为组织选择数据准备工具时需要寻找哪些内容。以下是深入研究数据准备为何仍然是重大分析面临的挑战的原因,
数据准备面临的挑战
多种因素加剧了数据准备面临的挑战。
首先,支持分析计划所需的数据源和数据类型的数量和复杂性呈指数级增长。通过组织内部和外部的分布式数据生态系统访问这些数据源需要大量的时间、资源、技能和工具来完成。
IDC公司数据集成和完整性软件服务研究总监Stewart Bond说,“这是当今时代数据环境具有的复杂性。因为存在多种不同的数据类型:交易数据、社交媒体数据、结构化数据、非结构化数据、日志文件数据、图形数据。数据环境存在各种不同的数据,存储这些数据的技术也各不相同。”
其次,对自助数据访问和集成的请求数量使IT团队不堪重负。Zaidi说,这表明从集中式IT模型到数据集成的功能不再有效。
他说:“IT部门需要通过易于用户使用和理解的工具来配置数据访问和集成,这是对数据准备的需求进一步上升的原因。”
第三,数据需求不断变化,因为业务分析师、集成商、业务用户、数据工程师和数据科学家对他们的项目都有不同的数据需求。
Zaidi说:“这使得一次准备数据并使不同的角色/消费者可以使用它们来满足他们不断变化的需求,”
下一代数据准备工具
他补充说,随着数据准备工具的成熟,组织的痛点已经显著改变。其痛点在于用来连接哪些数据源以及准备哪些数据。如今,组织将重点放在数据治理、沿袭、可追溯性和质量上。他们还面临着确保具有必要技能的合适人员可以使用数据准备工具访问正确数据的权限。
Bond将此归结为“数据智能”问题,即有关数据的元数据。
他说,“人们需要了解数据的位置,数据的含义,谁在使用它,谁可以访问它,为什么拥有数据,需要多长时间保存数据,以及如何使用它,这是一种智慧。”
值得庆幸的是,数据准备工具市场正在不断发展,以包括解决这些问题的新功能。上一代工具仅限于支持业务用户所需的最后一英里数据准备工作的简单数据转换要求。下一代工具现在具有与IT团队共享发现和准备好的模型以进行操作的功能,以及诸如数据编录之类的数据管理功能,使用户能够查看和搜索连接的数据资产。
Zaidi说:“某些工具现在还嵌入了高级数据质量功能,这些是上一代工具所没有的。这些功能包括性能分析、标记、注释、重复数据删除、模糊逻辑匹配、链接和合并功能。这些功能使IT和数据管理团队可以更轻松地提高质量并确保治理和协作。”
在这里,机器学习(ML)是关键。基于机器学习的功能不仅可以在准备之前自动化数据的匹配、连接、配置文件、标记和注释,而且某些工具可以突出显示敏感属性、异常和异常值,并与元数据管理和治理工具协作以防止敏感数据被暴露。
Zaidi解释说:“这些机器学习增强的数据准备工具允许不同技能水平的用户采用数据准备,同时确保治理和合规性。”
在数据准备工具中查找什么
当组织评估现代数据准备工具时,Zaidi说他们应该寻找关键功能:
- 数据摄取和分析。寻找一个可视化环境,使用户能够交互式地接收、搜索、采样和准备数据资产。
- 数据编目和基本元数据管理。采用工具应该允许创建和搜索元数据。
- 数据建模和转换。工具应支持数据混搭和混合、数据清理、过滤以及用户定义的计算,组和层次结构。
- 数据安全。工具应包括安全性功能,例如数据屏蔽、平台身份验证以及用户/组/角色级别的安全性筛选。
- 基本数据质量和治理支持。数据准备工具应与支持数据治理/管理以及数据质量,用户权限和数据沿袭功能的工具集成。
- 数据丰富。工具应支持基本的数据丰富功能,包括实体提取和从集成数据中捕获属性。
- 用户协作和运营。这些工具应有助于共享查询和数据集,包括发布、共享和推广具有治理功能的模型,例如数据集用户评分或官方水印。
此外,Zaidi还强调了以下与众不同的功能:
- 数据源访问/连接。工具应具有基于API和基于标准的连接性,包括对云计算应用程序和数据源(例如流行的数据库PaaS和云计算数据仓库)的本地访问、内部部署数据源,关系和非结构化数据以及非关系数据库。
- 机器学习。工具应支持使用机器学习人工智能来改善甚至自动化数据准备过程。
- 混合和多云部署选项。数据准备工具需要支持在云平台、内部部署或混合集成平台设置中的部署。
- 特定于域或垂直领域的产品或模板。工具应提供针对特定领域或垂直领域的数据和模型的打包模板或产品,以加快数据准备时间。
最后,Zaidi说,人们必须考虑的第一件事是,其组织是使用一个独立的数据准备工具,还是与一个将数据准备嵌入到更广泛的分析/商业智能、数据科学或数据集成工具中的供应商合作。如果有一个依赖于一系列分析/商业智能和数据科学工具的数据集成的通用用例,请考虑使用独立工具。另一方面,如果只需要在特定平台或生态系统的场景中准备数据,那么使用这些工具的嵌入式数据准备功能可能更有意义。
数据准备市场概况
Gartner公司将数据准备工具供应商分为四类,因为数据准备功能已嵌入所有数据管理和分析工具中,因此每一种都在不断变化。
(1)独立的数据准备工具。该领域的供应商专注于实现与下游流程的更紧密集成,例如API访问以及对多个分析/商业智能、数据科学和数据集成工具的支持。该领域的工具包括Altair、Datameer、Lore IO、Modak Analytics、Paxata和Trifacta等供应商的产品。
(2)数据集成工具。这一类别的供应商历来注重数据集成和管理。这包括来自供应商的产品,如Cambridge Semantics、Denodo、Infogix、Informatica、SAP、SAS、Talend和TMMData。
(3)现代分析和商业智能平台。这些供应商专注于数据准备,将其作为端到端分析工作流的一部分。Zaidi说,由于数据准备对于现代分析和商业智能至关重要,因此该领域的所有供应商都在嵌入数据准备功能。此类别中的供应商包括Alteryx,Tableau、Cambridge Semantics、Infogix、Microsof、MicroStrategy、Oracle、Qlik、SAP、SAS、TIBCO Software和TMMData。
(4)数据科学和机器学习平台。Gartner公司分析师表示,这些供应商提供数据准备功能,作为端到端数据科学和机器学习流程的一部分。其代表厂商包括Altery、Cambridge Semantics、Dataiku、IBM、Infogix、Rapid Insight、SAP和SAS。
除了上述四大类别之外,Gartner公司分析师还发现了具有数据准备功能的新类别,其中包括以下平台和具有代表性的供应商:
- 数据管理/数据湖支持平台:Informatica、Talend、Unifi和Zaloni
- 数据工程平台:Infoworks
- 数据质量工具:Experian
- 数据集成专家:Alooma、Nexla、StreamSet和Striim
6种关键数据准备工具
以下六个数据准备工具提供了有关当前可用功能的更详细的描述。
(1)Alteryx Designer
这个独立的数据准备工具也是Alteryx Analytics和数据科学平台的一部分,这意味着它还作为更广泛的现代分析和商业智能平台中的功能以及更广泛的数据科学和机器学习平台中的功能而被嵌入。它提供了拖放工作流,无需SQL代码即可分析、准备、混合数据。它是按年度订阅的,并按指定用户定价。
(2)Cambridge Semantics Anzo
Anzo是Cambridge Semantics的端到端数据发现和集成平台,因此涵盖了Gartner公司的所有四个类别。Anzo在现有数据基础设施上应用了基于语义的基于图形的数据结构层,以映射企业数据,公开数据集之间的连接,启用可视化探索和发现,以及混合多个数据集。Anzo是通过订阅提供的,其定价基于核心数量和用户数量。
(3)Datameer Enterprise
Datameer Enterprise是一个数据准备和数据工程平台,完全属于Gartner公司的独立类别。它着重于使用向导引导的集成过程将分散的原始数据源聚集在一起,以创建单个数据存储。Datameer Enterprise提供了类似于电子表格的界面,可用于混合和视觉探索功能。根据计算能力或数据量向客户收费。云计算客户按小时或通过年度许可证收费。
(4)Infogix Data3Sixty Analyze
Infogix公司的Data3Sixty Analyze是基于Web的解决方案,源于Infogix收购Lavastorm。与Datameer一样,它涵盖Gartner公司的所有四个类别。Data3Sixty使用角色定义用户。设计人员可以创建和编辑数据流,浏览器只能执行数据流,而计划程序可以创建和修改计划以进行自动处理。Infogix公司出售Data3Sixty既是基于订阅的桌面产品,又是基于永久和订阅提供的基于服务器的产品。
(5)Talend Data Preparation
Talend提供了三种数据准备工具:Talend Data Preparation(开源桌面版本)、Talend Data Preparation Cloud(作为Talend云平台的一部分提供的商业版本)和Talend Data Preparation的另一版本(作为内部部署的Talend Data Fabric产品)。Talend Data Preparation是一个独立的工具,而Talend Cloud和Talend Data Fabric是将数据准备集成为更广泛的数据集成/数据管理工具中功能的示例。Talend使用机器学习算法进行标准化、清理、模式识别和对账。开源版本是免费的。商业版本遵循基于命名用户许可证的订阅模型。
(6)Trifacta Wrangler
Trifacta Wrangle是一个独立的数据准备平台,提供各种版本以支持云计算和本地计算环境。它提供了嵌入式机器学习功能,用于推荐要与之连接的数据、推断数据结构和模式、推荐连接、定义用户访问以及自动化可视化以实现探索/数据质量。Trifacta Wrangler提供免费版本、Wrangler Pro(根据计算容量和用户数量收费)、Wrangler Enterprise(根据计算/处理规模和用户数量收费,同时提供内部版本和云计算版本)和Trifacta公司的Google Cloud Dataprep(根据计算消耗收费)。