随着物联网和大数据的应用与发展,企业中的数据量每天都在增加,因此需要了解如何满足这些新的IT计划的存储需求。
从冰箱到汽车,物联网涉及几乎所有配置传感器的所有设备,并通过互联网连接将数据传输到中央存储库进行存储。一旦存在,它就成为大数据的一部分,这是对所有信息的分析。
然而,大数据的应用远远超出了物联网(IoT)。大数据项目可以分析来自传统或现代数据库甚至非结构化数据的数据。大数据还可以将传感器收集的看似无关的信息与传统数据库中的信息相关联,以提高组织效率。例如,交通运输公司可以在其车辆中使用传感器来引导驾驶员选择提高运输效率和降低燃料成本的路线。
采用大数据或物联网项目的好处可以提高生产力,更好的健康或更加愉快的生活。随着用户对这一概念越来越适应,这些技术允许安装越来越少的设备,数据组织的收集量呈指数增长。人们面临的挑战是如何存储这种数据,因为其在类型和数量上与传统存储数据明显不同。
存储需要一个大数据和物联网项目
从存储的角度来看,物联网和大数据是相似的,但他们有不同的需求。物联网项目的存储响应取决于用例。对于传感器,物联网存储系统需要同时处理来自数百万个传感器的快速输入。因为这些传感器产生的数据通常很小,所以目标存储系统需要存储可能达到数万亿个小文件,而不会影响性能。
但物联网项目的数据还可以包括来自摄像机或无人机的监视图像。此数据类型通常是连续流,因此其存储取决于高带宽和存储,这需要比传感器用例更少但却大得多的大容量文件的能力。而这种挑战更加令人生畏的是,组织为这两种物联网用例都需要提供更大的存储空间。
从大数据的角度来看,存储系统需要访问物联网项目创建的所有或至少大部分数据。组织还可以使用大数据项目来分析现有数据库和其他非结构化数据,以及关联不同的数据集。
到目前为止,大数据最常见的基础是Hadoop文件系统。Hadoop文件系统(HDFS)创建处理服务器集群,并将分析作业分配给集群中任务量最少的节点。其意图是节点需要分析的数据在该节点上都是本地数据。这种情况消除了对昂贵的网络基础设施的需要,并能够使用低成本的服务器级存储设备,而不是昂贵的共享企业级存储设备。
物联网和大数据的数据占用和存储I/O的要求与传统数据中心应用并不相同。首先,物联网数据通常是连续馈送。数据大小可以从小到大,而所需要存储的文件数量可以达到数万亿。这使其更容易快速创建大量的数据,其结果是存在对容量增长的持续需求。
这种增长必须快速扩张,并且不会造成破坏。物联网项目的存储系统还需要成本有效地扩展,以便组织能够长时间存储PB级数据。这需要更低的管理成本和负担。大多数IT人员根本无法管理来自六个不同供应商的十几个存储系统。IT专业人员需要将其存储硬件要求推广到一至三个涵盖一级和二级应用程序的存储系统,以及物联网和大数据创建的大量非结构化数据。
寻找到物联网项目挑战的答案
物联网和大数据的应用为IT专业人员带来了一系列挑战。物联网有两种不同的文件存储需求,大多数组织最终都需要这两者。第一个需要随机摄取数万亿的小文件。第二个需要高得多的带宽流的文件,只是数量少得多,但却大得多。单个存储系统极少提供这两种功能。通常,它们被调整为处理数万亿的小文件或调整为大型的流文件。
从大数据的角度来看,存储系统需要访问物联网项目创建的所有或至少大部分数据。
大数据项目带来了另一组挑战。首先,来自物联网项目的大部分(如果不是全部)数据需要转移到Hadoop集群进行分析。第二,Hadoop集群必须能够访问业务中的传统数据,例如数据库和用户数据。此外,HDFS本身也有挑战。例如,单个节点负责分析作业分配。它还存储群集的所有元数据。如果该节点关闭,整个集群可能会失败。
组织还面临Hadoop的本地存储设计的挑战。通过在节点之间复制数据副本来进行数据保护。大多数组织将选择三方复制作为默认值。这意味着从容量角度看,这些挑战将会乘以三倍,再加上已经驻留在物联网存储系统上的数据,这对容量提出了更高的要求。
Hadoop设计中的另一个挑战是,集群中处理作业的最可用节点实际上可能不会在其上存储数据。这意味着作业将具有处理其能力较差的节点,或者该作业需要将数据传送到最有能力的节点。
然后,其核心问题变成:单个存储系统可以解决所有这些问题吗?答案取决于用例。对象存储系统显然是用于物联网数据的后端存储设备。经验告诉人们,对象存储系统经足够支持Hadoop环境。
对于物联网环境,对象存储系统善于处理高要求的文件对象计数环境。大多数对象存储系统也可以是用于Hadoop环境的后端存储设备,通过Amazon简单存储设备的兼容性,或在某些情况下,本机提供HDFS支持。为Hadoop基础设施提供共享存储后端增加了网络延迟,但它减轻了单个主要控制节点的负担。它还消除了对3倍复制的需要,因为大多数对象存储系统使用基于奇偶校验的数据保护方案,例如擦除编码。
使用对象存储系统的另一个优点是物联网设备可以直接将数据发送到Hadoop环境使用的同一存储设备中。数据的共享意味着容量消耗的减少,并且不浪费等待数据在物联网数据存储设备和Hadoop存储设备之间传输的时间。
该设计面临的挑战是数据中心可能仍然需要为其生产应用环境提供另一个存储系统。组织还可能需要存储和处理来自IP摄像机和类似物联网设备的视频数据。如果是这种情况,那么一些对象存储系统可能并不合适;调整其他存储系统以同时有效地处理大文件和小文件不是最佳的选择。
超越对象存储
数据中心内的协议开始混合。市场上的许多存储系统可以提供各种协议支持,包括对象,网络文件系统(NFS),服务器消息块(SMB),全球互联网小型计算机系统接口(iSCSI)甚至光纤信道(FC)。
每个协议对不同的用例执行良好。例如,采用光纤信道(FC)是关键任务数据库的理想选择,但对于Tier2和Tier3应用程序而言,它们通常被认为过于昂贵。全球互联网小型计算机系统接口(iSCSI)通常是较低优先级应用程序的首选协议。网络文件系统(NFS)非常适合高性能文件共享,并且正在获得作为虚拟机映像存储区域的牵引力。即使对于大数据或物联网项目,有时网络文件系统(NFS)也比对象存储更合适。
大多数数据中心将必须选择至少一个存储系统对其主要存储系统进行补充。虽然对象存储正在引起人们更的关注,但高性能和高性价比的NFS/SMB解决方案正在回归。这些系统像对象存储系统一样向外扩展,通常具有类似的擦除编码类型的数据保护,并支持各种协议。在某些情况下,他们可以执行所有上述操作。
组织选择哪种策略,将取决于他们期望管理的物联网类型和大数据以及项目的范围。另一个考虑因素是其当前存储资产的年限和适用性,以解决物联网和大数据问题。如果数据中心的当前生产存储支持Tier1和Tier2应用程序的高性能要求,则在后端添加对象存储可能是理想的。
如果Tier1和Tier2应用程序的性能要求稍微有些偏差,那么提供所有协议的单一存储基础设施可能会受到关注。虽然这些更通用的系统不能表现得如同集中式系统,但是它们通常为典型的数据中心提供足够的性能。此外,他们提供了整合到单个存储系统的好处。其结果应当是更低的成本,操作更为简单性。
物联网和大数据可以改变组织如何开展业务的方式。这二者的组合可以提供的洞察力使得企业能够显著地改进其创建新产品和响应客户的方式。但这些举措对IT基础设施,特别是存储系统将会产生重大的影响。
IT专业人员需要一个大数据和物联网项目的战略,使存储基础设施充分发挥其潜力。而正确地选择产品可以满足挑战,无论是数量庞大的文件和高容量文件,还是综合存储系统。