下一代网络的“可视化”渴望
随着网络越来越复杂,对于网络管理的需求也在发生变化。我们看到,网络管理在朝着几个方向发展,如可视化、自动化、智能化等。尤其可视化对于端到端的流量透视以及全网的安全策略管理等网络整体性能管理和运维至关重要,成为网络厂商的新发力点。
Gartner的调查结果表明,“主动预防网络性能问题”是当前企业客户首要的运维投资驱动力,占整个投资的27%,而“快速网络故障诊断”、“业务质量保障SLA”分别排在第二、第三位,其投资驱动力分别为15%、12%。
传统上,IP网络运维存在多点“不可视”。例如,业务性能不可视,也就是说传统网络管理只提供网络的性能,看不到网络上的承载内容,导致故障认知盲点多,故障定位效率低。再如,传统网管路由不可视,看不到业务路径,导致运维人员无法预防路由振荡引起的全网故障。
是否有方法彻底解决网络运维中的上述“盲点”?
在华为看来,首先要转变思维,将传统的被动网络运维转变为主动网络运维,实现对终端用户的业务体验监控,对潜在的故障点和薄弱环节进行精确判断,才能做到科学、高效的“水来土掩、兵来将挡”。
传统故障检测的“罩门”
网络故障诊断和质量评价等问题是网络维护的核心问题之一。通常情况下,IT管理员不能确定网络是否有故障隐患,也不会知道在哪里发生了故障,因此对视频、语音和上网等业务的性能质量无法客观评价。传统园区网业务的性能故障诊断缺乏有效的E2E定位手段,导致故障诊断时间长、难度大,难以满足用户要求。
网络性能故障诊断和质量评价十分重要,目前有多家研究团体和标准组织从事技术研究和标准制定。IETF 制定了RFC5357 (A Two-Way Active Measurement Protocol)和RFC4656(A One-way Active Measurement Protocol (OWAMP)用于IP网络的性能统计和故障检测。与此同时,Cisco推出了私有的SAA(服务保障代理)方案,华为公司则采用NQA(网络质量分析)机制,以响应IP网络可维护、可运营的诉求。所有这些用于IP的故障检测机制有一个共同特点:它们都是一种间接测量方法,需要通过插入专用的检测报文,计算检测报文丢包率来间接推导出业务丢包率。而IP通信是无连接的,检测报文经过的路径并不一定就是业务报文经过的路径,这导致检测出的路径质量不能真实反映业务报文的传输状况。
网络包守恒算法iPCA
企业园区网络的运营维护不仅仅要关注网络功能和性能,更要从用户与业务对网络的要求出发,关注用户体验和网络质量。华为S12700敏捷交换机的iPCA提供的网络包守恒算法,能够快速检测任意用户的视频、语音等业务质量,即刻定位故障发生在链路、板卡甚至芯片的位置,大大提升了运维效率。网络能用与好用是完全不同的两个境界,iPCA无疑实现了从“能用”到”好用”的飞跃。
iPCA(Packet Conservation Algorithm for Internet,网络包守恒算法)是一种基于直接测量方式检测网络质量状况的管道监控类技术,它可以测量网络的丢包、时延、时延抖动和流量,并通过逐跳检测,完成故障精确定位。针对现有的检测手段存在故障定位时间长、故障定界模糊和评估精度差等问题,华为新推出S12700敏捷交换机,利用其灵活可编程的特点,开创性地实现了iPCA功能,全面提升网络质量检测和故障精确定位能力,降低网络运维成本。
图1-1 iPCA原理示意图
如上图所示,iPCA方案包括两部分:测量控制服务器和敏捷交换机。测量控制服务器接收用户对目标业务流进行质量检测的请求,通知敏捷交换机进行检测,收集各个敏捷交换机的统计信息,计算并形成报告。
总体说来,iPCA具有以下特点:
华为专利技术,解决IP运维业界难题
华为创造性地利用了IPv4报文头中至今唯一保留的bit位:Flags字段的第0位,用以对目标业务流进行染色。由于绝大多数利用IP通信的业务都要有标准的IP报文头,因此这种染色方法可不依赖于业务类型,方便设备进行硬件处理。
直接检测机制,故障检测精准
对业务流质量进行直接测量,无需插入测试流,检测路径与真实业务路径合一,故障精准定位到链路、板卡甚至芯片,对于时延、抖动、丢包的检测精度更可达到99%以上,而其他IP故障检测机制(如Cisco SAA)的检测精度只能达到30%左右。
基于ENP以太网络处理器,轻松实现对任意业务流进行检测
为了对目标业务流进行故障检测,需要对业务流进行区分和着色,传统的交换机只能用有限的ACL资源进行业务流识别,且只能用CPU对报文进行染色,性能低下,无法规模部署。而基于ENP的S12700敏捷交换机支持高达256K ACL,可对任意业务流进行标识,并且用微码来对业务流进行染色,实现线性转发。
iPCA应用场景
iPCA应用于多种场景,如园区、电力、IP RAN以及ISP链路租用等,通过对丢包、时延、抖动等网络质量的检测,迅速定位视频、语音、有线无线等应用的故障原因。
图1-2 iPCA园区应用场景
如上图所示,iPCA可逐段检测接入、汇聚、核心乃至广域各段的网络指标。故障定界迅速精确,可立刻判断出故障发生在网络中的某一块板卡甚至某个芯片,为解决故障提供强有力的保证。即使在广域网部分不支持iPCA特性,通过对广域两端的园区出口进行分析,亦可确认故障是否发生在广域部分,明确责任归属。