高性能路由解决网络流量问题-51CTO.COM

全球WAN升级很需要服务提供商的三层VPN MPLS服务，但一些站点中一直受到高性能路由和可用性问题的影响。在一些从原来WAN基础架构迁移过来的站点（主要是新兴市场）的网络路由问题报告中，诸如应用程序超时、响应速度慢和完全断线等越来越普遍。这些站点都是基于低速P2P线路、帧中继和IPsec/互联网VPN等网络结构。

许多时候人们经常质疑是服务提供商的线路或设备故障引起了问题，但是有时候我们会被告知问题只是“暂时性的”或者“没有发现问题”。遇到这样的情况，我们的运营人员登录到一台 CPE路由器，然后发现MPLS PE路由器上包含了BGP路由，因此所有的流量都被丢弃了，包括PING流量。运营人员手动关闭连接提供商的CPE WAN接口，使站点从MPLS网络切换到传统的WAN网络，从而使服务恢复正常。这个问题引起了我们主管的高度关注，因为把原有网络作为备份网络需要开支。而且许多此类站点都是无人看管的，它们在半夜还会执行一些批处理应用程序。

是否有一些技术或解决方案能够自动检测和处理这类网络路由问题？我们了解BFD，但是似乎这是一个专门用于链路的解决方案，有一些提供商不支持。我们的运营人员考虑采用GRE通道叠加技术，但是它会显著增加网络复杂性，而且还会影响我们重点部署的MPLS VPN。

回答：似乎您遇到了通常所谓的“管制”或“黑洞”问题，其表现是MPLS核心网络的问题影响到了终端用户，但是未影响到CPE路由器本身。这些问题都经常出现在3层VPN网络，而在传统P2P或覆盖（帧中继、IPSEC）WAN部署的概率则较小，这是因为服务提供商增加了一个路由层的缘故。由于任何两个CPE站点都不会建立直接路由，所以它们必须使用MPLS/VPN网络的PE路由器发出的控制面板信号。这比设计很差的服务提供商网络还要慢很多。

FD（双向故障检测）无法解决您的问题，这点您说对了。它只支持直接相邻的“存在性”检查，而不能检测确定端到端路径完整性。在CPE路由器之间部署叠加的GRE通道肯定是一种检测问题的可行方法。在通道中，可以使用GRE持久连接或优化路由协议来检测性能问题和执行故障恢复。然而，正如您所说的，这类设计会增加复杂性，而且在一些特定平台的硬件上，由于需要分片和无法转发数据包，它会影响性能。

有一个可供参考的解决方案是高性能路由（Performance Routing, PfR），其前身是最优边缘路由（Optimized Edge Routing, OER）。高性能路由集成了思科IOS解决方案，它使用嵌入式思科智能IOS特性来改进应用程序性能和可用性，从而优化传统路由性能。经过配置，PfR就能够在网络出现问题，或者用户定义策略影响特定WAN出口性能时，监控IP流量流，测量WAN路径性能和动态重定路由流量。基于IOS报告源的实时反馈信息，如NetFlow数据记录、IP SLA统计信息和WAN链路使用率，PfR能够作出智能路由决策。这样就可以实现传统路由协议（OSPF或BGP）无法实现的感知应用程序的路由功能，因为传统路由协议只支持一维的“最佳路径”选择。

根据在CPE路由器上运行的硬件和IOS级别，您可能只需要在CPE路由器上启用PfR属性，然后定义一个性能策略，监控端到端的路径可用性。当来自Netflow或IP SLA的反馈信息表明出现了管制或黑洞状态时，您就可以将流量重新转发到传统网络。这是报告非常有用的特性。

【编辑推荐】