数据仓库是专用于获取、存储和处理大量信息的平台。在30年前,当我开始设计数据仓库时,最初的推动力是提高操作系统的性能–通过将报告工作负载转移到单独的平台。
随着报告系统不断成熟,用户意识到他们能够使用新环境将原始数据转换为可操作的见解,以供业务人员使用以做出更好的决策。从一线部门到执行团队,所有级别的业务人员都可利用信息来提高组织效率。
现在,大数据平台的使用范围包括车间机器人访问现代数据仓库以改善其机器人动作,到日常工作中业务人员使用越来越智能的分析工具。
为什么要考虑数据仓库?
现代数据仓库可帮助提高商业智能,主要通过提高数据质量和一致性、允许用户更好地理解数据的含义、促进数据驱动的文化,并促进历史智能和预测功能。
在开始评估不同平台之前,重要的是了解不同类型的大数据部署。现代数据仓库只是满足企业需求的众多平台选项之一。
选择满足你需求的数据仓库
各种规模的供应商都在试图利用企业对商业智能的兴趣赚钱,他们向IT社区提供大量的大数据产品。在这个竞争激烈的市场,所有现代数据仓库平台供应商都被迫加快发布新产品以及增强现有产品。
我们会看到,这些竞争对手经常发布功能,以扩展其产品的管理、数据集成、元数据管理、分析和信息治理功能。最新趋势是AI和机器学习增强工具,可帮助员工收集、准备和分析大数据并分享业务见解。
为了正确地为其企业选择和部署最合适的大数据平台,IT部门必须对竞争产品进行全方位的对比分析。由于云计算和内部部署架构以及数据基础架构的组合种类繁多,因此评估团队需要扩展其分析范围,以包括现代数据仓库生态系统。
评估团队不仅需要了解现代数据仓库产品,而且团队成员还必须学习该产品的基础架构的复杂性。选择正确的大型数据存储生态系统对于存储和处理大型数据的任何应用程序的成功至关重要,该生态系统包括类型、平台、服务器、存储架构、现场或云基础架构,数据存储和辅助工具集。
数据仓库评估技巧
- 遵循标准化的产品评估方法以加快选择过程,其中包括选择合适的评估团队,进行全面的需求分析并创建一组加权评估指标。使用评估指标创建供应商候选清单,并对这些供应商进行深入比较;
- 了解您的业务需求。你是在寻找专门满足某些应用程序独特需求的专用数据仓库,还是提供广泛功能的通用平台?
- 哪些类型的用户将访问你的现代数据仓库-群众数据科学家、执行管理人员、销售团队、车间人员或用户?在平台和分析工具的选择中,最终用户的需求将发挥重要作用;
- 你是否正在寻找可支持整个大数据处理生命周期(从初识数据收集到显示)的供应商产品,还是同类最佳解决方案?
- 你所选择的产品提供哪些数据清洗和高级数据分析功能?
- 全面评估供应商向你收取的费用的方式,以防止预算超支。大数据平台的成本模型涵盖从简单的软件购买到基于云的系统,这些系统均按查询、存储和计算或处理时间收费;
- 估计初始和将来的数据存储量和工作量。你是否可简单地扩展平台以适应不断增长的数据量和工作量?
- 访问供应商、同行测评和大数据讨论论坛网站。Gartner的Peer Reviews网站是了解IT社区如何评价各种供应商产品的绝佳场所。供应商还经常购买Gartner数据仓库魔力象限,并提供给公众下载;
- 根据你的偏好,你将确定供应商是否支持云计算、内部部署还是两种环境;
- 该平台是否为系统和用户管理以及平台监控提供强大的界面?
- 该平台是否支持多种数据类型?
- 该平台是否支持批处理和实时数据加载?
- 是否提供工作负载管理功能?
- 该产品是否符合企业、特定行业或政府的法规要求?