越来越多的业务分析师正在提升自身编写临时查询和分析算法的能力。这些临时查询和分析算法用来寻找企业数据存储中的有用信息,为企业做业务决策时提供更多数据。随着企业员工越来越精通于使用分析工具,他们当中越来越多的人发现,传统的数据仓库架构阻碍了他们分析某些重要数据的能力。
新兴的自助型数据准备工具可以帮助业务分析师、数据科学家和其他最终用户绕过数据仓库,完成数据集成和制备过程的关键部分。而我们说数据仓库对此造成了阻碍的主要原因有以下三点。
首先,传统的数据仓库通常是一个存储库,其数据来自内部事务处理,或者用于生成业务性能报告的运营系统。这限制了在数据上所进行分析的范围和类型。
其次,传统的数据仓库用于提取的数据集合是高度集成和标准化的,它使用了一整套的业务规则,结合了一个预定义的易于维度分割的数据模型。这样做可能会过滤掉与特定分析应用程序相关的某些信息。
第三,IT团队通常负责开发规则和流程,以确保数据以正确的方式存储到数据仓库中,这种方法同样可能无法满足分析人士的最终分析需求。
显然,传统的数据仓库的规范流程在过去很适合于企业,但数据的应用场景正在迅速改变。企业越来越需要将他们的交易数据与来自各种其他信息来源的数据混合,这些数据源包括网站点击,活动日志,生产设备的传感器和其他设备,客户电子邮件、社交网络和客户流媒体数据、数据聚合器和第三方信息服务提供商等。
新的数据类型需要新的数据平台
利用这些外部数据源可以帮助提高商业洞察力,配以业务流程的变化,将使得企业真正转变为数据驱动型。但在许多情况下,比起数据仓库,这些新增的数据更适合在一个大型的数据平台上被存储和处理——Hadoop集群,NoSQL数据库,或Spark系统,或者从外部门户网站获取这些数据。
此外,业务分析师以及数据科学家经常对可用数据进行不同形式的访问,甚至包括数据的原始状态。
例如,消费产品制造商的营销团队可能需要分析客户的档案记录,新闻源和社交媒体数据,以找出一种模式,帮助策划一个在线营销活动。同时,客户体验团队可能需要监控社交媒体,获取各种网站上的产品评论,识别潜在的问题,以便采取相应的行动来安抚顾客的不满情绪。其他团队也可以有自己的用处。因为每个人都有不同的需求和目标,数据仓库几乎不可能让所有的分析目标都得到满足。
让分析师处理那些最能满足他们独特需要的数据,可以让分析工作更加更富有成效。这对数据集成的各个方面都有影响,包括数据发现,数据摄取、分析、验证和质量保证等。各大供应商所提供的新型自助型数据准备工具是个不错的选择。
数据准备阶段的逻辑分离
此技术对分析用户、IT和数据管理团队进行了明确合理的分工。业务分析师和数据科学家可以使用数据准备工具来找到不同系统中的相关数据,将这些数据放在一起,进行配置和清洗以保持数据的一致性,定义业务规则管理对数据的使用。在数据准备软件的帮助下,他们能得到相关数据的更全面的定制化视图,这通常比他们从数据仓库获取到的东西要强得多。
理想情况下,分析师对数据的使用更加充分。这意味着他们应该保证自身理解高层数据使用策略,并贯彻实施。他们还需要与其他人合作以确保数据被合理的解释,并保证企业内部数据的一致性。
因为数据集被捕获后,保持着原来的格式,IT部门不需要负责实现被分析数据的集成和转换规则。相反,他们的责任转换为管理整个基础架构,以支持数据发现、整合和分析过程,并提供控制机制来监控数据定义的不一致现象以及使用业务数据时不遵守治理规则的行为。
大多数企业可能并不会抛弃数据仓库。自助型数据准备软件是一种相对较新的不断成熟的技术,主要由一些新兴供应商提供。但这些数据准备工具的蓬勃发展,为那些寻求获取更多数据的企业指明了方向,那就是要增加分析的灵活性和有效性。