全球WAN升级很需要服务提供商的三层VPN MPLS服务,但一些站点中一直受到高性能路由和可用性问题的影响。在一些从原来WAN基础架构迁移过来的站点(主要是新兴市场)的网络路由问题报告中,诸如应用程序超时、响应速度慢和完全断线等越来越普遍。这些站点都是基于低速P2P线路、帧中继和IPsec/互联网VPN等网络结构。
许多时候人们经常质疑是服务提供商的线路或设备故障引起了问题,但是有时候我们会被告知问题只是“暂时性的”或者“没有发现问题”。遇到这样的情况,我们的运营人员登录到一台 CPE路由器,然后发现MPLS PE路由器上包含了BGP路由,因此所有的流量都被丢弃了,包括PING流量。运营人员手动关闭连接提供商的CPE WAN接口,使站点从MPLS网络切换到传统的WAN网络,从而使服务恢复正常。这个问题引起了我们主管的高度关注,因为把原有网络作为备份网络需要开支。而且许多此类站点都是无人看管的,它们在半夜还会执行一些批处理应用程序。
是否有一些技术或解决方案能够自动检测和处理这类网络路由问题?我们了解BFD,但是似乎这是一个专门用于链路的解决方案,有一些提供商不支持。我们的运营人员考虑采用GRE通道叠加技术,但是它会显著增加网络复杂性,而且还会影响我们重点部署的MPLS VPN。
回答:似乎您遇到了通常所谓的“管制”或“黑洞”问题,其表现是MPLS核心网络的问题影响到了终端用户,但是未影响到CPE路由器本身。这些问题都经常出现在3层VPN网络,而在传统P2P或覆盖(帧中继、IPSEC)WAN部署的概率则较小,这是因为服务提供商增加了一个路由层的缘故。由于任何两个CPE站点都不会建立直接路由,所以它们必须使用MPLS/VPN网络的PE路由器发出的控制面板信号。这比设计很差的服务提供商网络还要慢很多。
FD(双向故障检测)无法解决您的问题,这点您说对了。它只支持直接相邻的“存在性”检查,而不能检测确定端到端路径完整性。在CPE路由器之间部署叠加的GRE通道肯定是一种检测问题的可行方法。在通道中,可以使用GRE持久连接或优化路由协议来检测性能问题和执行故障恢复。然而,正如您所说的,这类设计会增加复杂性,而且在一些特定平台的硬件上,由于需要分片和无法转发数据包,它会影响性能。
有一个可供参考的解决方案是高性能路由(Performance Routing, PfR),其前身是最优边缘路由(Optimized Edge Routing, OER)。高性能路由集成了思科IOS解决方案,它使用嵌入式思科智能IOS特性来改进应用程序性能和可用性,从而优化传统路由性能。经过配置,PfR就能够在网络出现问题,或者用户定义策略影响特定WAN出口性能时,监控IP流量流,测量WAN路径性能和动态重定路由流量。基于IOS报告源的实时反馈信息,如NetFlow数据记录、IP SLA统计信息和WAN链路使用率,PfR能够作出智能路由决策。这样就可以实现传统路由协议(OSPF或BGP)无法实现的感知应用程序的路由功能,因为传统路由协议只支持一维的“最佳路径”选择。
根据在CPE路由器上运行的硬件和IOS级别,您可能只需要在CPE路由器上启用PfR属性,然后定义一个性能策略,监控端到端的路径可用性。当来自Netflow或IP SLA的反馈信息表明出现了管制或黑洞状态时,您就可以将流量重新转发到传统网络。这是报告非常有用的特性。
【编辑推荐】