俗话说,“知识就是力量”,但没有人比网络管理员更清楚信息和知识之间的巨大差异。
在网络中,大数据通常是指从标准管理系统和接口获取的大量流量、中继以及设备信息,这些数据是从部署在各个端点的探头以及从客户端及服务器设备中的网络层软件来收集。当这些数据放在标准管理系统接口框架中时,一些信息可能会反映出当前的故障、配置、结算、性能和安全(FCAPS)管理做法,但大多数公司不能将来自客户端/服务器设备的数据域当前的运营活动关联起来。而这正是大数据和大数据分析的“用武之地”。
有效利用网络大数据的最关键的因素是保证所有数据元素的精确事件定时。网络是关于事件的瞬间情况和并列,失去时间同步性意味着在分析信息时完全失去价值。如果所有数据收集都是从共同来源定时,就能够确保时间同步性。如果不是这样的话,你应该将同步化事件引入到大数据收集点,以在正则点关联所有记录的时间。
建立映射来查明网络问题
在保证事件的时间可以精确地关联后,下一步是在这个共同时间轴和网络问题之间建立映射。有关网络问题来源的信息可能出自当前的FCAPS过程、用户投诉或者客户端/服务器遥测。后者也可能有助于恢复体验信息质量,如响应时间,以及测量数据包丢包率和延迟性(例如从TCP窗口大小)的网络性能数据。这种映射允许大数据分析来探索这些问题点与问题***次出现之前时的指标的关系。
这种类型的大数据分析能够帮助分析网络问题的根本原因,这往往是通过其他手段不可能做到的。由于网络环境变化非常迅速,管理员经常在追逐问题,从一个地方到另一个地方,然而,当问题发生时从来没能找到正确的原因。大数据分析可以将数千(或数百万)数据元素与已知问题点相关联,找出相关性,然后通过数据分析来找出根本原因。
确定正常运行情况
利用大数据解决网络问题的另一种策略是使用大数据得出正常网络环境的基本数据。如果上一步(映射问题点到大数据共同时间表)正确完成的话,我们将知道当没有任何问题时网络的情况。收集这些“运行良好”时期网络数据的分析将允许管理员确定什么是正常网络行为,并根据收集的数据量来量化这种“正常”。
然后,基线正常行为可以用来分析网络运营中不被视为问题的时段,但也不能完全确定是否是正常操作行为。经验丰富的网络管理员都知道,有时候网络会进入一种不稳定的状态,实际上并没有出现故障或者收到用户投诉。在网络、整体需求或者服务器资源状态中,也有这样的情况会影响网络运营。基线数据可以帮助找出造成这种状况的原因。
大数据分析可以帮助找到方法来修复网络环境
我们需要寻找这样一种行为,即分析表明网络环境未能生成问题报告时,甚至当它密切模仿一个问题时期。在这里,我们的目标是利用分析来探索是什么缓解了预期的问题;这可能改善你的根本原因分析或者提供其他方式来修复环境。
另一个需要检查的是资源如何受到网络事件、应用或服务器事件,或者用户流量负载的变化的影响。当这些方面发生显著变化时,网络应该以可预见的方式作出回应。例如,应用流量的显著变化通常会导致响应时间的明显增加,以及丢包率的上升等。
但如果这些行为发生时没有伴随流量的重大变化,则表明资源已经超载。同样,如果流量发生重大变化,而没有伴随响应时间或网络丢包的增加,也可能表明网络供大于求。在这种情况下,可以减少一些容量,从而帮助保护较低的运营预算。
只专注于可操作的情报
***一条建议:一些管理员会挖掘大数据报告来寻找不寻常的模式,即使没有任何迹象表明这些与上述任何过程或任务相关。你可能只会发现在一天中的某个时间,人们更多地使用他们的应用和网络。(这通常是很容易发现的事情:只需要往办公室四周看看即可!)
在网络应用中成功利用大数据的关键是专注于问题,而不是数据点。只有当信息能够分门别类时,网络环境的信息(无论是一致且正常的,还是异常且有问题的)才有用。无法归类的情况很难变成行动项目,因此很难分配分析时间来检测和管理它们。网络运营是一项具有挑战性的工作,大数据作为一个可行的工具应该让这个工作变得更容易,而不是更加困难。记住,专注于可操作的情报,你就不会出差错。