企业能否负担得起大数据解决方案的成本?

大数据 数据分析
人们仍然存在的一个误解是,只有大企业才能负担得起采用大数据驱动的解决方案的成本,它只适用于海量数据,而且成本高昂。近年来的几次革命性发展将会改变这种想法。

[[357521]]

人们仍然存在的一个误解是,只有大企业才能负担得起采用大数据驱动的解决方案的成本,它只适用于海量数据,而且成本高昂。近年来的几次革命性发展将会改变这种想法。

大数据技术的成熟度

第一次革命性发展与大数据的成熟度和质量有关。毫无疑问,企业采用大数据技术需要付出一定的努力才能使其发挥作用。


图1.技术正在成长的阶段

以往有很多来自开发人员的故事,他们浪费了80%的时间试图用Spark、Hadoop、Kafka或其他方法来克服一些故障。如今,这些技术变得足够可靠,并且在成长阶段学会了如何相互合作。

与捕获内部错误相比,基础设施出现故障的机会要多得多。在大多数情况下,即使是基础设施出现问题也可以容忍,因为大多数的大数据处理框架设计都是容错的。此外,这些技术为计算提供了稳定、强大、简单的抽象,并允许开发人员专注于开发的业务。

各种大数据技术

目前正在发生第二次革命,近年来涌现出许多开源和专有技术——Apache Pino、Delta Lake、Hudi、Presto、Clickhouse、Snowflake、Upsolver、Serverless等等。数千名开发人员的创造力和创意已转化为大胆而卓越的解决方案,并具有巨大的协同作用。


图2.大数据技术堆栈

以下介绍一个典型的分析数据平台(ADP)。它包括四个主要层次:

•仪表板和可视化–分析数据平台(ADP)的外观,可将分析摘要提供给最终用户。

•数据处理–验证、丰富数据并将数据从一种形式转换为另一种形式的数据管道。

•数据仓库–存放组织良好的数据的地方,例如汇总和数据集市等。

•数据湖–用于存放纯原始数据的地方,是数据仓库的基础。

每个层次都有足够的选择,可满足任何需要和要求。这些技术中有一半是在过去5年内出现的。

关于它们的重要一点是,技术的开发旨在相互兼容。例如,典型的低成本小型分析数据平台(ADP)可能包含Apache Spark作为处理组件的基础,AWS S3或类似的数据湖,Clickhouse作为仓库,OLAP用于低延迟查询,而Grafana用于漂亮的仪表板(见图3)。


图3.典型的低成本小型分析数据平台(ADP)

提供更强保证的更复杂的分析数据平台(ADP)能够以不同的方式组成。例如,将Apache Hudi和S3引入作为数据仓库可以确保更大的规模,而Clickhouse仍然可以低延迟地访问聚合数据(见图4)。


图4.更大规模的ADP具有更强的保障

成本效益

第三次革命性变化是由云层造成的。云计算服务成为真正的游戏规则改变者,它们将大数据作为即用型平台(大数据即服务)进行处理,使开发人员可以专注于功能开发,从而减少对云计算基础设施的关注。

图5展示了分析数据平台(ADP)的另一个示例,该示例利用了无服务器技术从存储、处理到表示层的强大功能。当其技术被AWS公共云托管服务取代时,它具有相同的设计思想。


图5.典型的低成本无服务器分析数据平台(ADP)

值得一提的是,这里的AWS云平台只是一个例子,其他云计算提供商也可以构建分析数据平台(ADP)。

开发人员可以选择特定技术和无服务器。无服务器越多,其可组合性就越好,而越是被供应商锁定,就越是不利。采用特定的云计算提供商的服务和无服务器堆栈上的解决方案可以加快上市时间。在无服务器技术之间明智地选择可使解决方案具有成本效益。

不过,这种选择对初创公司来说并不十分有用,因为他们倾向于利用典型的10万美元的云计算信用额度,并且在AWS、GCP和Azure之间进行跳转是一种很普遍的工作方式,必须提前弄清这个事实。

通常情况下,工程师区分以下成本:

  • 开发费用
  • 维修费用
  • 变更成本

以下一一进行解答。

(1)开发费用

云计算技术无疑可以简化工程工作,它在几个方面产生积极影响:

第一个是架构和设计决策。无服务器堆栈提供了丰富的模式和可重用组件集,为解决方案的体系结构提供了坚实而一致的基础。只有一个问题可能会减慢设计阶段:大数据技术本质上是分布式的,因此在设计相关的解决方案时必须考虑可能的故障和中断,以确保数据的可用性和一致性。另外,解决方案需要更少的努力来扩展。

第二个是集成和端到端测试。无服务器堆栈允许创建独立的沙盒、播放、测试、修复问题,从而减少开发回送和时间。

另一个优势是,云计算实现了解决方案部署过程的自动化。而这个特性是任何成功团队的必备特性。

(2)维护费用

云计算提供商声称要解决的主要目标之一是减少监视和保持生产环境活动的精力。他们试图在几乎没有Devops参与的情况下构建某种理想的抽象。

但是,实际情况有所不同。关于这个想法,通常维护工作仍然需要一些努力。下表显示最突出的种类。


但除此之外,在很大程度上取决于基础设施和许可成本。设计阶段是非常重要的,因为它有机会挑战特定技术并提前估算其运行成本。

(3)变更成本

大数据技术关注客户的另一个重要方面——变更成本。经验表明,大数据与任何其他技术之间没有区别。如果解决方案不是过度设计的,那么变更成本就可以与非大数据堆栈完全媲美。大数据带来了一个好处,大数据解决方案被设计为分离是很自然的。设计正确的解决方案看起来不像是整体解决方案,可以允许在需要时在短期内应用局部更改,并且影响生产的风险更小。

概要

总而言之,企业可以负担得起采用大数据的成本。它向开发人员提出了新的设计模式和方法,开发人员可以利用它来组装任何符合严格业务需求的分析数据平台,同时具有成本效益。

大数据驱动的解决方案可能是快速成长的初创公司的重要基础,这些初创公司希望变得灵活,其应用可以快速更改。一旦企业需要更大的数据量,大数据驱动的解决方案就可以与企业的业务一起扩展。

大数据技术允许以各种规模实施近实时分析,而传统解决方案则在性能上陷入困境。

云计算提供商已将大数据提升到了一个新的水平,从而提供了可靠、可扩展以及随时可用的功能。开发具有快速交付的经济高效的分析数据平台(ADP)从未如此容易,企业需要利用大数据技术提升其业务。

 

责任编辑:姜华 来源: 企业网D1Net
相关推荐

2022-11-04 12:30:15

大数据

2013-12-13 16:18:28

2014-04-25 10:25:48

802.11ac千兆Wi-FiAP

2013-10-21 10:51:26

微软大数据

2013-10-18 15:27:30

微软大数据微软

2013-07-30 11:18:59

SAP大数据解决方案

2012-03-21 11:11:37

ibmdw

2009-04-21 10:24:36

运维管理网管摩卡软件

2023-10-16 07:00:04

大数据SASAnalytics

2011-05-12 13:58:56

mysql数据转移

2018-03-08 11:09:29

Hadoop大数据数据仓库

2018-08-20 18:15:01

2013-04-25 19:47:59

大数据甲骨文

2013-05-22 10:34:47

大数据甲骨文甲骨文全球大会2013

2013-01-16 14:28:03

SAP大数据预测分析SAP HANA

2018-06-28 12:27:35

大数据企业数据

2012-09-06 10:52:25

华为MVX大数据存储

2015-05-21 16:44:07

2023-11-02 17:48:20

大数据

2012-09-05 16:08:31

大数据存储HCC2012华为云计算大会
点赞
收藏

51CTO技术栈公众号