目前很多人仍然存在的一个最大的误区是,只有大企业才能负担得起大数据驱动的解决方案的成本,这是因为采集和分析大量数据成本很高。现在这种情况已经不存在了,几次革命已经改变了这种思维状态。
大数据技术的成熟
第一次革命与成熟度和质量有关。众所周知,十年前,大数据技术需要付出一定的努力才能让所有的部件一起工作。
过去有大量开发者的故事,他们花费了80%的时间试图克服Spark、Hadoop、Kafka或其他工具的故障。如今,这些技术已经足够可靠,并学会了如何相互配合。
基础设施中断的可能性比捕获内部错误的可能性大得多。即使是基础设施问题,在大多数情况下也可以容忍,因为大多数大数据处理框架都被设计成容错的。此外,这些技术通过计算提供了稳定、强大、简单的抽象,允许开发人员专注于开发的业务方面。
大数据技术的多样性
第二次革命正在发生,因为近年来出现了无数的开源和专有技术。大量的开发人员的创造性能想法已经转化为大胆而杰出的解决方案,并围绕它们产生了巨大的激励协同作用。
以下了解一个典型的分析数据平台(ADP)。它由四个主要层组成:
•仪表板和可视化——分析数据平台的外观,向终端用户公开分析摘要。
•数据处理——数据管道用于验证、丰富和将数据从一种形式转换为另一种形式。
•数据仓库——保存企业良好的数据的地方,进行汇总,并成为数据集市。
•数据湖,纯粹的原始数据定居的地方,数据仓库的基地。
每一层都有足够的选择,以满足任何口味和要求。这些技术中有一半是在过去五年内出现的。
它们的重要之处在于,技术的发展是为了相互兼容。例如,典型的低成本小型分析数据平台(ADP)可能包括ApacheSpark作为处理AWSS3组件或数据湖等类似项目的基础,Clickhouse作为仓库和用于低延迟查询的OLAP,以及用于漂亮仪表盘的Grafana。
更复杂、担保更强的分析数据平台(ADP)可以用不同的方式组合。例如,引入ApacheHudi和S3作为数据仓库可以提供更大的规模,而Clickhouse可以保留对聚合数据的低延迟访问。
成本效益
第三次革命由云计算服务发起。云计算服务已经成为真正的游戏规则改变者。他们将大数据视为一个即用的平台(大数据即服务),允许开发人员专注于功能开发,而将云计算服务留给基础设施。
还有一个分析数据平台(ADP)的例子,它利用了从存储和处理到表示层的无服务器技术的力量。它具有相同的设计思想,但技术被AWS管理的服务所取代。
值得一提的是,这里的AWS只是一个例子。同样的分析数据平台(ADP)可以构建在任何其他云计算平台之上。
开发人员可以选择特定的技术,并达到无服务器的程度。服务器越少,它就越可组合;然而,其缺点是它将更多地被供应商锁定。锁定在特定云计算提供商和无服务器堆栈中的解决方案可以快速进入市场。在无服务器技术之间的明智选择可以使解决方案更具成本效益。
不过,这个选项对初创公司来说并不是很有用,因为他们倾向于利用典型的云计算服务,在AWS、GCP和Azure之间切换是相当普遍的情况。这个事实必须提前澄清,必须提出更多与云计算无关的技术。
在通常情况下,开发工程师区分以下成本:
•开发成本
•维护成本
•变更成本
以下逐一个解决这些问题。
(1)开发成本
云计算技术无疑简化了工程工作。它可以在几个领域产生积极影响。
第一个是关于体系结构和设计决策。无服务器堆栈提供了一组丰富的模式和可重用组件,为解决方案体系结构提供了坚实而一致的基础。
只有一个问题可能会减缓设计阶段——大数据技术本质上是分布式的,因此相关解决方案的设计必须考虑到可能的故障和中断,以确保数据的可用性和一致性。作为奖励,解决方案需要更少的努力来扩大规模。
第二个是集成和端到端测试。无服务器栈允许创建独立的沙盒、播放、测试和修复问题,因此减少了开发时间和返工。
另一个优点是云计算对解决方案的部署过程进行了自动化。不用说,这一特性是任何成功团队的关键属性。
(2)维护成本
云计算提供商声称已经解决的一个主要目标是用更少的精力来监视和保持生产环境的活跃。他们试图构建某种理想的抽象,几乎不涉及DevOps。
然而,现实情况有些不同。关于这个想法,维护通常仍然需要一些努力。但除此之外,该法案在很大程度上取决于基础设施和许可成本。设计阶段非常重要,因为它提供了挑战特定技术和提前估计运行时成本的机会。
(3)变更成本
客户担心的大数据技术的另一个重要方面是变更成本。经验表明,大数据和其他任何技术都没有区别。如果解决方案没有过度设计,那么更改的成本可以精确地与非大数据堆栈相比。不过,大数据也有一个好处。大数据解决方案被设计成去耦是很自然的。适当设计的解决方案看起来不像一个整体,允许在需要的地方在短时间内应用局部更改,并且影响生产的风险较小。
总结
总之,中小企业可以负担得起大数据成本。它向开发人员提出了新的设计模式和方法,以便他们能够利用它来组装任何分析数据平台,同时保持最强的业务需求并同时具有成本效益。
大数据驱动的解决方案可能是业务快速增长的初创公司的一个很好的基础,这些初创公司希望更加灵活,应用快速变化。一旦企业需要更大的数据量,大数据驱动的解决方案可能会随业务一起扩展。
大数据技术允许在小范围或大范围内实现近实时分析,而经典的解决方案则与性能有关。
云计算提供商已经将大数据提升到一个新的水平,提供了可靠、可扩展和随时可用的功能。开发高成本、快速交付的分析数据平台(ADP)从未像现在这样容易,因此可以采用大数据提升业绩。