用于大数据处理高性能计算的4个实现步骤

大数据
如果企业需要采用处理其大数据的高性能计算,则在内部部署运营可能效果最佳。以下是企业需要了解的内容,其中包括高性能计算和Hadoop的不同之处。在大数据领域,并非每家公司都需要高性能计算(HPC),但几乎所有使用大数据的企业都采用了Hadoop式分析计算。

如果企业需要采用处理其大数据的高性能计算,则在内部部署运营可能效果最佳。以下是企业需要了解的内容,其中包括高性能计算和Hadoop的不同之处。

在大数据领域,并非每家公司都需要高性能计算(HPC),但几乎所有使用大数据的企业都采用了Hadoop式分析计算。

用于大数据处理的高性能计算的4个实现步骤

HPC和Hadoop之间的区别很难区分,因为可以在高性能计算(HPC)设备上运行Hadoop分析作业,但反之亦然。 HPC和Hadoop分析都使用并行数据处理,但在Hadoop 和分析环境中,数据存储在硬件上,并分布在该硬件的多个节点上。在高性能计算(HPC)中,数据文件的大小要大得多,数据存储集中。高性能计算(HPC)由于其文件体积庞大,还需要更昂贵的网络通信(如InfiniBand),因此需要高吞吐量和低延迟。

企业首席信息官的目的很明确:如果企业可以避免使用HPC并只将Hadoop用于分析,可以执行此操作。这种方式成本更低,更易于员工操作,甚至可以在云端运行,其他公司(如第三方供应商)可以运行它。

不幸的是,对于需要高性能计算(HPC)进行处理的生命科学、气象、制药、采矿、医疗、政府、学术的企业和机构来说,全部采用Hadoop是不可能的。由于文件规模较大,处理需求极其严格,采用数据中心或与采用云计算都不是很好的方案。

简而言之,高性能计算(HPC)是一个在数据中心内部运行的大数据平台的完美示例。正因为如此,企业如何确保其投资巨大的硬件完成需要的工作成为了一个挑战。

大数据Hadoop和HPC平台提供商PSCC Labs首席战略官Alex Lesser表示:“这是必须使用HPC来处理其大数据的许多公司面临的挑战。大多数这些公司都有支持传统IT基础设施,他们很自然地采用了这种思路,自己构建Hadoop分析计算环境,因为这使用了他们已经熟悉的商用硬件,但是对于高性能计算(HPC)来说,其响应通常是让供应商来处理。”

考虑采用高性能计算(HPC)的公司需要采取以下四个步骤:

1.确保企业高层对高性能计算(HPC)的支持

企业的高层管理人员和董事会成员不一定要求是高性能计算领域的专家,但绝不能没有他们的理解和支持。这些管理人员都应该对高性能计算(HPC)有足够的了解,以及可以为企业明确支持可能制定的大规模硬件、软件和培训投资。这意味着他们必须在两个方面受到教育:(1)HPC是什么,为什么它与普通分析不同,需要采用特殊的硬件和软件。(2)为什么企业需要使用HP​​C而不是原有的分析来实现其业务目标。这两项教育工作都应由首席信息官(CIO)或首席开发官(CDO)负责。

Lesser表示:“采用HPC的最积极的公司是那些相信他们真正的科技公司,他们指的是亚马逊AWS云服务,最初只是亚马逊公司的零售业务,现在已成为一个庞大的利润中心。”

2.考虑一个可以自定义的预配置硬件平台

PSSC Labs等公司提供预打包和预配置的HPC硬件。“我们有一个基于HPC最佳实践的基本软件包,可以与客户一起根据客户的计算需求定制这个基础软件包。”Lesser说,他指出几乎每个数据中心都必须进行一些定制。

3.了解回报

与任何IT投资一样,HPC必须符合成本效益,并且企业应该能够获得投资回报(ROI),这一点在管理层和董事会的头脑中已经阐明。“一个很好的例子是飞机设计。”Lesser说。 “高性能计算(HPC)的投资规模很大,但是当公司发现它可以使用HPC进行设计模拟并获得5个9的准确性,并且不再需要租用物理风洞时,就会很快收回了HPC投资。”

4.培训自己的IT员工

HPC计算对企业的IT员工来说不是一个简单的过渡,但是如果企业要运行内部部署操作,则应该让团队定位以实现自给自足。

最初,企业可能需要聘请外部咨询人员才能开始工作。但咨询任务的目标应始终是双重目标:(1)让HPC应用程序继续运行,(2)将知识传授给员工,以便他们能够接管操作。企业不应该满足于此。

HPC团队的核心是需要一名数据科学家,他能够开发高性能计算所需的高度复杂的算法来回答企业的问题。它还需要一名精通C +或Fortran技能,并能够在并行处理环境中工作的强大系统的程序员,或者是网络通信专家。

“最重要的是,如果企业每两周要运行一次或两次工作,就应该到云端来承载其HPC。”Lesser说,“但是如果企业正在使用HPC资源和运行作业,如制药公司或生物学公司可能每天多次运行,那么在云端运行就会浪费资金,应该考虑运行自己的内部操作。”

责任编辑:未丽燕 来源: 企业网D1Net
相关推荐

2016-10-17 13:56:48

大数据大数据分析

2015-11-09 09:58:31

大数据Lambda架构

2017-10-17 12:17:13

大数据云计算云端

2023-12-18 11:21:40

MongoDB数据库

2017-07-26 17:45:05

2017-11-14 05:04:01

大数据编程语言数据分析

2017-07-21 14:22:17

大数据大数据平台数据处理

2018-12-07 14:50:35

大数据数据采集数据库

2020-11-02 15:56:04

大数据数据库技术

2021-04-13 14:39:08

谷歌Logica语言

2015-12-17 14:53:59

大数据云计算技术

2012-09-20 10:15:41

大数据处理挑战服务器性能

2018-07-04 14:15:48

2021-07-20 15:37:37

数据开发大数据Spark

2023-08-25 15:13:16

大数据云计算

2018-05-28 08:13:17

数据中心性能IT基础

2023-11-29 13:56:00

数据技巧

2020-11-09 17:15:08

戴尔

2020-07-22 08:13:22

大数据

2022-11-17 11:52:35

pandasPySpark大数据
点赞
收藏

51CTO技术栈公众号