本文是一份对数据分析的生命周期、不断扩展的工具和技术组合,以及如何根据你的需要选择一个正确的数据平台的简要指南。
无论你是在软件开发、devops、系统、云计算、测试自动化、站点可靠性、领导scrum团队、信息安全或是其他的信息技术领域负有责任,你都会有越来越多的机会和需求来与数据、分析和机器学习打交道。
你对数据分析的接触可能来自于IT数据,例如从敏捷、devops或网站指标中所开发的度量和见解。要学习有关数据、分析和机器学习的基本技能和工具,最好的方法就是将它们应用到你所知道的数据中,并从中挖掘出见解来推动行动。
一旦你脱离了IT数据的世界,来向数据科学家团队、公民数据科学家和其他执行数据可视化、分析和机器学习的业务分析师提供服务,事情就变得有点复杂了。
首先,你必须加载和清理数据。然后,根据数据的数量、种类和速度,你可能会遇到多个后端数据库和云数据技术。最后,在过去的几年中,商业智能和数据可视化工具之间的选择也已经膨胀成了一个全生命周期分析和机器学习平台的复杂矩阵。
分析和机器学习的重要性增加了IT在多个领域的责任。例如:
- IT经常会提供围绕所有数据集成、后端数据库和分析平台的服务。
- Devops团队经常会部署和扩展数据基础设施,以便在机器学习模型上进行实验,然后支持生产数据的处理。
- 网络运营团队会在SaaS分析工具、多云和数据中心之间建立安全连接。
- IT服务管理团队需要响应数据和分析服务的请求和事件。
- Infosec监督数据安全治理和实施。
- 开发者将分析和机器学习模型集成到应用程序中。
考虑到分析、云数据平台和机器学习能力的爆炸式增长,这里有一个入门课程,可以帮助你更好地了解分析的生命周期,从数据集成和清理到数据运营,再到数据库、数据平台和分析产品本身。
从数据集成和数据清理开始的数据分析
在分析师、公民数据科学家或数据科学团队能够执行分析之前,他们必须能够在其数据可视化和分析平台中访问所需的数据源。
首先,你可能需要集成来自多个企业系统的数据,从SaaS应用程序提取数据,或者从物联网传感器和其他实时数据源中提取流数据。
这些都是为分析和机器学习收集、加载和集成数据的所有步骤。而根据数据和数据质量问题的复杂性,还将有机会参与数据操作、数据编目、主数据管理和其他的数据治理计划。
我们都知道这样的一句话:“输入的是垃圾,输出的也会是垃圾”。分析师必须关注他们的数据质量,数据科学家也必须关注他们机器学习模型中的偏差。此外,集成新数据的及时性对于希望变得更加实时的数据驱动的业务来说也是至关重要的。基于这些原因,加载和处理数据的管道在分析和机器学习中会变得非常重要。
可应对各种数据管理挑战的数据库和数据平台
加载和处理数据是必要的第一步,但是在选择最佳数据库时,事情会变得更加复杂。今天的选择已经包括了企业数据仓库、数据湖、大数据处理平台以及专门的NoSQL、图、键值、文档和柱状数据库。为了支持大规模的数据仓库和分析,会有像Snowflake, Redshift, BigQuery, Vertica和Greenplum这样的平台。最后则是大数据平台,包括Spark和Hadoop。
大型企业很可能拥有多个数据存储库,并使用了云数据平台,如Cloudera数据平台或MapR数据平台,或是InfoWorks DataFoundy等数据编排平台,以便使所有的这些存储库都可用于分析。
包括AWS、GCP和Azure在内的主要公共云都有需要筛选的数据管理平台和服务。例如,Azure Synapse Analytics是微软在云端的SQL数据仓库,而Azure Cosmos DB则是提供了许多NoSQL数据存储的接口,包括Cassandra(柱状数据)、MongoDB(键值和文档数据)和Gremlin(图形数据)。
数据湖是用来集中非结构化数据以进行快速分析的流行加载平台,人们可以从Azure数据湖、Amazon S3或Google云存储中挑选数据来实现这一目的。在处理大数据方面,AWS、GCP和Azure clouds中也都有Spark和Hadoop产品。
分析平台的目标是机器学习和协作
随着数据的加载、清理和存储,数据科学家和分析师便可以开始执行分析和机器学习了。根据分析的类型、执行工作的分析团队的技能和底层数据的结构,组织会有许多不同的选择。
分析可以在自助式数据可视化工具(如Tableau和Microsoft Power BI)中执行。这两种工具都以公民数据科学家为目标,并公开了可视化、计算和基本分析。这些工具支持基本的数据集成和数据重组,但更复杂的数据争论经常会发生在分析步骤之前。Tableau Data Prep和Azure Data Factory是帮助集成和转换数据的辅助工具。
除了数据集成和准备之外,想要自动化的分析团队则可以考虑像Alteryx Analytics Process Automation这样的平台。这个端到端的协作平台能够将开发人员、分析师、公民数据科学家和数据科学家与工作流自动化和自助数据处理、分析和机器学习处理能力连接起来。
Alteryx公司的首席分析和数据官Alan Jacobson解释说:“分析流程自动化(APA)作为一个类别的出现,突显了一个组织中的每一个员工都是数据工作者的新期望。IT开发人员也不例外,Alteryx APA平台的可扩展性对这些知识工作者将尤为有用。”
也有一些针对数据科学家的工具和平台,旨在使他们在使用Python和R等技术时能够更有效率,同时还可以简化许多操作和基础设施步骤。例如,Databricks是一个数据科学操作平台,它支持将算法部署到Apache Spark和TensorFlow当中,同时在AWS或Azure云上自动管理计算集群。
现在,一些像SAS Viya这样的平台能够将数据准备、分析、预测、机器学习、文本分析和机器学习模型管理结合到一个单一的modelops平台上。SAS也正在实施数据分析,并以实现一个端到端的协作平台为目标,将面向数据科学家、业务分析师、开发人员和高管。
SAS的决策管理研究和开发总监David Duling说:“我们认为modelops是一种创建可重复的、可审核的操作管道的实践,可用于将所有的分析部署到操作系统当中,包括AI和ML模型。作为modelops的一部分,我们已经可以使用现代的devops实践来进行代码管理、测试和监控了。这将有助于提高模型部署的频率和可靠性,从而提高建立在这些模型上的业务流程的灵活性。”
Dataiku是另一个致力于为不断壮大的数据科学团队及其合作者提供数据准备、分析和机器学习的平台。Dataiku有一个可视化的编程模型来支持协作和为高级SQL和Python开发人员编写代码记录。
来自领先的企业软件供应商的其他一些分析和机器学习平台也希望为数据中心和云数据源带来分析能力。例如,Oracle Analytics Cloud和SAP Analytics Cloud都旨在集中智能和自动化洞察,以实现端到端的决策。
选择数据分析平台
在大数据、机器学习和数据治理兴起之前,选择一个数据集成、仓储和分析工具通常是更为直接的选择。而今天,随着术语、平台功能、操作需求、治理需求以及目标用户角色的混合,使得选择平台变复杂了,特别是在许多供应商都支持多种使用范式的情况下。
企业在分析需求和目标方面通常会有所不同,但都应该从已有的优势出发来寻找一个新的平台。例如:
- 在公民数据科学项目上取得成功的公司,以及已经拥有数据可视化工具的公司,可能会希望通过分析流程自动化或数据准备技术来扩展该项目。
- 想要一个工具链,来让数据科学家能够在不同的业务部门工作的企业可以考虑使用具有modelops功能的端到端分析平台。
- 拥有多个不同后端数据平台的组织可以从云数据平台中获益,以便对其进行编目和集中管理。
- 想要在单一公共云供应商上标准化所有或大部分数据能力的公司应该研究可以提供数据集成、数据管理和数据分析的平台。
随着分析和机器学习开始成为重要的核心能力,技术人员们都应考虑加深对可用平台及其能力的理解。因为分析平台的力量和价值会不断增加,它们在整个企业的影响力也会不断增加。