数据中心NFV技术可靠性研究

大数据
NFV是网络运营商主推的网络虚拟化技术,这有利于大幅降低网络运营商的设备采购成本。不过,运营商需要的是高可靠性的网络,对网络可靠性要求最高,但看看我们应用了虚拟化技术的表现,2015年十大云计算宕机的收入损失超过了31 Million美元,显然这样的技术无法满足运营商的可靠性要求。运营商当然不愿意放弃自己提出来的NFV,更何况还有SDN跃跃欲试,那该怎么办?本文给出了一些提升NFV可靠性的思路。

数据中心NFV是通过使用x86等通用性硬件以及虚拟化技术,来承载很多功能的软件处理,使网络设备功能不再依赖于专用硬件,降低网络设备成本。NFV是网络运营商主推的网络虚拟化技术,这有利于大幅降低网络运营商的设备采购成本。不过,运营商需要的是高可靠性的网络,对网络可靠性要求最高,但看看我们应用了虚拟化技术的表现,2015年十大云计算宕机的收入损失超过了31 Million美元,显然这样的技术无法满足运营商的可靠性要求。运营商当然不愿意放弃自己提出来的NFV,更何况还有SDN跃跃欲试,那该怎么办?本文给出了一些提升NFV可靠性的思路。

[[179553]]

我们需要先来看看部署了NFV 之后,对可靠性的判断准则是否发生了变化。NFV网络中增加了软件控制部分,这样可靠性评估准则要考虑服务停机时间与硬件停机时间的差异,要建立弹性软件的评估方式,这样当硬件检测到故障时,还要通报给NFV,这个过程要有延迟时间,所以需要故障检测和切换技术要比以前更精确,之前故障检测是秒级,现在就需要毫秒级,小于50MS。之前故障切换是秒级,现在就需要微秒级,在几百微秒以内。部署NFV之后,需要用新的工具来解决故障告警、根本原因分析和恢复,这是因为虚拟化技术使得构成服务的部件分散在网络多个不同的地方,检测麻烦不会像观察红灯一样简单,需要软件综合分析。

NFV环境下要提升可靠性,需要具有三个方面的处理机制:一是故障检测预测,通过对数据控制流检查、性能监视、网络设备日志分析、异常检查等等,判断有无发生故障;二是故障诊断定位,一旦发现故障即刻启动故障定位,通过分析确认哪里发生了故障,故障的相关性和优先图;三是故障恢复,根据故障位置,启动故障恢复程序,可以进行业务迁移、冗余备份、数据保护等恢复动作,通过这三步来达到提升NFV可靠性的目的。这样说很简单,实际实现起来是非常难的。就拿故障诊断来说,取决于故障检测的准确性,很多网络故障,不少的网络技术专家分析很久都无法明确原因,现在靠机器来完成,难度更大,要先将人的分析经验输入到机器中进行学习,然后由机器代替人来做处理,只有这样切换才来记得,任何一个环节有人为的介入,处理时间都会被拉长,业务就会受到影响,NFV采用软件自动控制的方法,可以将故障发现、排查和隔离过程控制到毫秒级,达到网络高可靠性的目的。

仅具备这些处理机制还远远不够,NFV环境下故障检测的数据规模大,硬件和软件解耦导致涉及的网络层次更多,很多数据还可能不能反映出故障原因,甚至网络已经故障了这些数据还表现正常,这样就不会触发故障诊断。还有NFV环境下,发生故障传播快和容易相互干扰,易于产生不可预知的故障,这些都会给诊断故障带来很大难度,就算分析出来故障位置,不同的软件可靠性评价准则不同,执行的恢复动作也有差异。有些故障是需要中断业务恢复的,有些故障是做局部微调就可以恢复的,当需要做这种恢复决策时,就算是人为评估都很难把握,更何况将这个决策权交给软件去做,误判一定时有发生。NFV技术也是一种全新的网络技术,新的系统意味着有更多的软件BUG。

为了进一步提升NFV技术的可靠性,还要在多个方面下功夫。运营商网络对可靠性的要求是5个9,而x86的可靠性通常只有2~3个9,所以基于x86实现的NFV可靠性不够高。这时可以考虑虚拟机分散开来,将同一个网元功能的多个虚拟机散布到异址物理设备上,降低单点故障对网络的影响。通过对虚拟机进行热备份,专有设备备份及建立通用备份池对多个网元的虚拟机进行备份的方式,提高网元可靠性。还要在故障检测上下功夫。比如支持黑盒故障的检测,支持未知错误的监测,检测时间要快,还有就是可扩展性好。将这些检测数据获取到了以后,通过机器学习的方式进行检测,将低维数据变化到高维数据。一般通过机器学习的检测有:有监督的学习,无监督学习和半监督学习,它们区别在于是否需要标签训练数据。在NFV技术中一般采用无监督学习方式。通过机器学习就可以引入很多的数理统计技术,来增强分析的准确性,这些技术可以来自基于统计、基于深度,基于密度和聚类等等方面综合分析出来结果。NFV技术可以采用动态自适应快速故障检测技术,如SOM算法、LOF算法、Bayesian Network算法等。对CMS、CNFM等管理系统同样采用备份、带外管理等机制,进一步提升系统可靠性。当通过这些一系列的软件得到故障原因后启动自动告警、自动切换等一系列措施,实现系统故障自愈,还需要支持在网络软硬件解耦后进行端到端的故障定界定位,对各个组件的安全信息比如日志、告警和异常输出等进行智能分析和关联,快速定位或提前预测系统安全隐患。谷歌数据中心的建设思路在可靠性方面考虑良多,在处理宕机这类故障的时候,可以依靠软件迅速地平滑过度,实现任务转移,以最快的速度保证SLA指标。

NFV将是一种革命性的新技术发展趋势,将对网络技术发展带来深远的影响。NFV技术在数据中心,尤其是运营商的数据中心领域应用获得了极大的认可,是运营商一直在推广的网络技术。虽然NFV在可靠性方面还有待提升,它真正走向市场和普及,还会面临众多的问题和挑战,但这并不妨碍很多运营商愿意尝试,NFV技术必将快速走向成熟。

责任编辑:未丽燕 来源: 企业网D1Net
相关推荐

2015-06-09 14:04:04

2015-12-28 10:27:18

数据中心电网

2011-06-20 14:21:01

模块化数据中心IT基础设施

2012-08-07 14:44:13

布线数据中心布线

2023-06-01 14:25:17

数据中心服务器

2015-08-17 13:29:17

数据中心UPS

2023-09-25 16:01:38

数据中心

2023-09-24 14:49:35

2009-08-19 15:11:24

2018-05-08 07:01:52

数据中心可用性可靠性

2019-08-30 12:10:05

磁盘数据可靠性RAID

2021-05-07 15:57:56

数据中心电力系统绿色数据中心

2020-10-21 10:58:19

数据中心

2014-02-19 10:05:38

CA TechnoloFacebook数据中心

2023-09-15 15:24:26

数据中心

2014-09-28 16:30:10

SDNNFV

2020-08-07 09:03:19

数据中心IT技术

2021-11-25 11:43:32

数据中心安全数据

2010-12-28 19:50:21

可靠性产品可靠性

2022-05-30 17:17:50

戴尔
点赞
收藏

51CTO技术栈公众号