凌晨2:00,某跨国公司运维机房内,IT运维人员们正在紧张地排查分析视频会议系统为何无法正常使用,按计划当天上午9:00 CEO要召开一个高层的视频会议,所以视频会议系统必需要在上班前恢复正常,运维人员面临着巨大的压力。您是否对这样的场景似曾相识?正如网络上流行的一首打油诗 “锄禾日当午,不如运维苦,对着破电脑,一调一下午”写出了IT运维人员的心声。
随着网络规模越来越大、网络中承载的业务类型越来越多样化,当用户业务体验受损时,IT运维人员往往难以判断是业务系统的问题,还是网络引起的问题,更不用说定位具体什么问题导致用户体验变差,运维人员很多时候都在忙着“救火”。如何掌握业务质量情况,如何实现网络故障快速精准定位,这些已经成为网络运维领域急需解决的问题。
影响用户业务体验的因素有哪些?
如果想准确定位业务体验变差的原因,首先需要了解哪些因素会对用户业务体验有影响,这样才能做到知己知彼百战不殆。除了人们熟知的网络通断、带宽不够会影响业务体验外。还有很多其他因素也在影响用户的业务体验,例如:设备老化丢包、网络配置错误、光纤劣化丢包、网络攻击、流控失效等等,但却由于缺少有效的检测方法和技术而被人们长期忽略。
当网络中传输数据类业务时,即便网络出现了丢包,TCP报文会重传,用户会感觉到网络访问比较慢,但并不会造成严重影响。而高清视频、语音等实时类业务对网络质量提出了更高的要求,以高清视频业务为例,要求丢包率小于10-6 ,也就是说一旦100万个包里面丢一个包,就会出现视频马赛克,而且用户也能立刻体验到。为了保证视频类业务的正常使用,有些大型企业往往会单独建立一张视频会议专网。
业务质量难检测,网络故障难定位的根本原因在哪里?
伴随着互联网的快速发展,IP网络已经成为信息承载的基石。大家都知道 IP网络是一个面向无连接的网络,采取“尽力而为”的转发模式,这成就了IP网络的大规模部署和发展,为今天丰富多样的互联网业务提供了基础保障,但这同时也是造成业务质量难检测,网络问题难定位的根本原因。
IP网络中传输的只有数据报文,没有任何与业务相关的信息,可以说网络与业务完全割裂,这是造成业务质量难检测,网络故障难定位的根本原因所在。当您在视频会议中出现马赛克,体验变差时,网络却无法快速感知到业务质量变差并反馈给IT运维人员来进一步解决。只有当您实在无法忍受并将问题报给IT人员时,他才知道网络出现了问题,但基于现有的网络质量检测技术IT人员也很难快速定位出产生问题的具体原因。面对IP网络无连接特性而带来的质量检测难题,现有的网络质量检测技术还未能很好的解决
“尽力而为”转变为“尽在掌控”的敏捷网络,带来全新运维体验
基于以上的分析,我们就在考虑,能否为无连接的IP网络增加一个主动的质量感知机制。当网络上运行的业务出现问题时,网络能够感知到并将故障点信息快速反馈给IT人员。这就好像我们人体一样,身体有一个自我感知和反馈的系统,当受凉感冒时,会通过发烧、头痛等症状告诉你身体内出现了问题,你需要去看医生或者吃药来进行进一步的治疗以防止病情加重。网络也同样需要这样一个机制。
华为利用专利技术解决了IP网络质量难检测,故障难定位的问题。华为敏捷网络利用iPCA(包守恒算法,Packet Conservation Algorithm for Internet)技术,为面向无连接的IP网络增加了一个主动的质量感知机制,即保留了IP网络面向无连接的特性,也实现了网络质量主动感知,从而可以全面提升网络质量检测和故障精确定位能力,降低网络运维成本。
那么,iPCA是如何实现网络质量检测的呢?对于任何一个网络区域,都存在网络边界,iPCA通过统计一段时间内流入与流出该网络区域的报文数量是否相等,来判断该网络区域是否存在问题。就像我们要判断一个容器是否漏水一样,可以从入口倒些水进去,根据出口接到的水与倒入的水是否一样多来进行判断。进一步类推,如果水从流入到流出经过了多个容器和连接的管道,我们也可以采用这种方法来逐段检测到底是哪个一段漏水或者堵塞了。要真正在网络中部署,并实现网络质量的精准检测,还有一些技术难点需要解决,例如:如何解决多入口多出口网络区域的检测而不用建立点到点之间连接?如何基于真实业务流来检测并保证检测的精准性与实时性?华为基于在网络领域的深厚技术积累已经完美解决了上述技术难点。
借鉴SDN的集中控制思想,集中统计并计算网络边界的多个端口在一段时间内流入与流出的报文数量之差,从而判断网络的丢包情况,基于IP报文进行检测和通信,各检测点之间无需建立点到点的连接,便于大规模部署。为了实现网络质量精准检测,iPCA首先采用外部时钟同步法对各检测设备进行时钟同步,并且在网络区域入口处,利用IP报文头中的保留位对业务报文进行周期性的“染色”,可以理解为对业务报文做了标记,在出口处根据标记位来统计收到的报文数量,实现了基于真实业务报文来检测网络质量情况,对业务无影响。如果报文经过多个网络设备及链路,利用iPCA技术,还可以检测出具体是那台设备、那段链路出现了问题,实现网络故障精确定位,帮助运维人员极大提高故障定位效率。
让我们一起来看看iPCA能为您的日常运维带来哪些好处。
1、 首先,当网络中的设备启用了iPCA功能时,IT运维人员可以从网管上全面掌握网络的质量情况。例如:查看关键设备/链路是否有大量丢包、了解某些重要业务的质量情况。
2、 其次,实现网络问题的精准定界。例如:企业通过租用运营商专线连接多个分支机构时,当跨广域的业务出现问题时,可以通过在广域网边缘设备启用iPCA功能来具体判断是运营商广域网、还是企业自身的园区网络出现了问题,实现网络问题精确定界。
3、 最后,实现网络问题的精确定位。当某网络区域出现大量丢包时,网络不仅能主动告知运维人员某类业务变差,网络出现问题,运维人员还可以进一步分析和定位具体是网络链路上的哪台设备、哪个链路出现了问题,做到了网络问题快速、精准定位,不用再去逐个设备排查,彻底解放了运维人员。
华为通过专利技术解决了IP网络质量检测的难题,帮助IT运维人员全面掌握业务质量情况,实现了IT运维人员的彻底解放。运维人员再也不用加班熬夜来定位网络问题,不用天天忙着“救火”了。